信息化时代为社会带来便利的同时也对网络运维、信息管理以及数据分析有着更高的要求,企业要保持高效运行,需要更为专业的运维技术。传统的运维技术只能对已经发生的故障进行处理,无法预测潜在的故障,这增加了企业系统产生突发问题的概率,企业运营风险加大。此外,在数据监控方面,传统运维技术只能进行简单的统计和分析,无法深入挖掘数据背后的规律和趋势,对系统的稳定性和可靠性都存在着威胁。
技术的发展是一个不断变革和突破的过程,针对传统运维技术存在的缺点,发展更加先进、出色的运维技术成为互联网企业保障业务稳定性和可靠性的关键,智能监控技术就通过利用人工智能和自动化技术实现了对系统和网络等运维环境进行实时、智能、高效地监测,更好地分析、预警和管理,旨在提高运维效率、降低故障响应时间、预防性地发现和解决问题,从而保障业务的稳定性和可靠性。智能监控技术诞生的背后凝聚的是无数IT技术人才的努力,记者走访了我国一家知名互联网企业,与企业的智能监控中心负责人进行了深入对话,探讨智能监控技术对IT运维领域带来的贡献。
云空间安全运维专家司宇,毕业于西安电子科技大学,大学毕业后,司宇在中国头部互联网公司工作了十余年,见证了全球运维技术从脚本化、自动化到智能化的发展,通过不断创新技术,为企业创造了巨大的价值。司宇率先在企业内广泛引入了智能监控技术,并取得了突出的业务成果,通过使用无监督机器学习算法对周期监控指标拟合基线,然后采用统计方法检测异常,实现分钟级智能监控报警。司宇对历史监控数据进行验证,智能监控对故障监控的异常检测准确率发现率均达到90%,远高于传统监控报警(60%),该算法已用于上万个故障场景监控,帮助更准确、及时的发现故障,从而提升了对外服务的稳定性。同时,司宇还创造性的引入了秒级智能监控,通过将10秒级数据做聚合,进行异常检测,将原本分钟级2-3分钟的异常预警时间,缩短为45秒,极大提升了重大故障发现速度,帮助企业实现了重大故障1分钟发现,5分钟定位,10分钟恢复的极致目标。2018年,司宇代表集团参加ArchSummit全球架构师峰会,发表《智能化故障治理流程探索和实践》演讲,将他作为监控中心负责人,在智能化、自动化故障管理中的实践经验分享给了社会各界,造福了更多IT人才和互联网企业。
“您的成功经验值得被行业内学习,那您认为要想在智能监控领域取得成功的要领是什么?您又是依靠什么坚持到今天的呢?”记者问。司宇向记者介绍了在智能监控技术领域中需要做到的几个重要的方面,首先是实时监测,通过及时警报和通知,帮助运维人员迅速发现和解决潜在问题,提高系统的稳定性和可用性,再加上通过自动化警告和自动化根因分析,可以大大缩短故障响应时间,减少对人工监控的依赖,减少排查故障所需的时间和人力资源,提高故障排除的效率。其次是故障预测,通过利用机器学习和数据分析技术,有助于提前采取相应的措施,避免系统中断或性能下降。智能监控技术在这些方面的应用,可以帮助企业提高运维效率、降低故障风险,并提升系统的可靠性和可用性。司宇进一步阐述到自己在智能监控技术方面取得成绩主要得益于前期的工作积累,在以智能监控技术为主要工作之前,司宇在运维领域的自动化、智能化以及故障管理方面已有多年的工作经历,这些经历对于他来讲就是成功的基石,是如今能够在智能监控技术领域取得成绩的重要因素。
智能监控技术的快速发展给人才带来了巨大的机遇,对于具备清晰规划和目标的人才来说,未来将拥有更广阔的发展空间。随着该技术不断取得进步,企业对于能够熟练运用和管理这些技术的人才的需求也会越来越高,对于和司宇一样有着清晰规划和目标的人才而言,他们可以通过不断学习和提升自身的专业知识,成为行业中的佼佼者。司宇表示将始终跟上技术发展的脚步,了解行业的最新趋势和挑战,保持个人竞争力,继续在行业内脱颖而出,通过持续学习和培养团队合作能力,在这个充满发展潜力的领域当中取得成就,为科技的发展作出重要贡献。(陈刚)
责任编辑:曾裕忠