1.2 AIOps为什么会成为公认的运维管理的方向

现实的问题就是创新的原动力!

Gartner在2016年就提出了AIOps的概念。在2018年的一项调查中发现有超过50%的客户已经采用或是计划开展AIOps的工作,预测到2020年将有56%的基础设施和运营管理的负责人会在AIOps技术方面实现投入。而AIOps在Gartner的技术发展曲线中也正处于起步上升的阶段。

对用户而言,运维技能的不足或短缺,由于正在持续扩张的基础设施规模而造成的复杂的管理流程,以及紧张的运维成本预算和持续变化增长的各种管理需求,都是具体而实际的运维业务的挑战,也是用户开展AIOps的原动力所在。

具体展开就可以完全弄清楚为什么AIOps是运维未来的必然方向。

运维管理人员素质的良莠不齐将为运维管理知识的沉淀与迭代带来成本;复杂的管理流程将为运维效率的提升带来障碍;不断引进的新技术应用与规模不断增长的基础架构造成了实际管理需求的不断变化与挑战,而愈发吃紧的运维预算成本又再三强调要在效率与保障之间艰难地找寻平衡点。

所以AIOps才是所有这些问题的解决之道。如图1-2所示,AIOps的威力在于,通过贯通融合的数据流转,实现了对于基础设施或系统应用的状态洞察与风险分析,改变了传统运维关注点与事后处理的被动模式;而数据流转又改变了数据供应链和数据供给的模式,为流程的优化和效率的提升提供了实际依据的基础资料。效率的提升必然会带来效益的提高或成本的降低,所以AIOps是传统运维工具无法达到的高度,也是企业运维管理保障体系建设的必然选择。

图1-2 传统运维与AIOps关注点的差异

AIOps(Artificial Intelligence for IT Operations)其实是整合IT服务管理(ITSM)、IT运营管理(ITOM)和数据层面上的IT运维的一种基于智能化的自动化处理与管理能力。AIOps使得数据能够驻留在支持实时应用分析和深度历史查询的大数据平台之中,而这些分析可以由那些支持对数据流进行无人值守式处理的机器学习来实现。这意味着传统的IT工具仍然发挥效用,例如服务管理仍然处理各种请求和事件;性能管理仍然监视各种指标、事件和日志。而AIOps则可以对所有基础数据进行梳理并发现关联,进而借助机器学习的分析,为运维管理与决策提供更好、更快的数据支撑,实现运维的服务任务过程的智能化和自动化。

由此我们可以设想一些具体的场景来描绘未来AIOps的最终状态。首先,要保证数据能够顺畅地从多个数据源汇入到一个统一且完整的数据平台中。该平台能够对来自其他来源和类型的数据予以吸收、分析和后期处理;通过机器学习来管理和修改分析算法。平台具备自动触发工作流的机制,其输出结果会作为二次数据源被再次反馈到系统之中,使得系统实现自适应,并且通过响应各种数据卷、数据类型和数据源的变化,进而自动调整和按需通知相应的管理员。

就实际情况而言,对于今天集团级企业复杂的IT环境,基于AIOps的智能运维是企业管理的必要措施之一。一个真实的案例:某国内大型银行,几乎部署了所有主流运维软件系统并覆盖了整个数据中心,由此触发了每天超过20000条告警,整个团队变成救火队员,应接不暇、疲惫不堪。为此,他们专门开展了人工智能的算法研究,通过机器学习技术将报警压缩合并到每天150条之内,且有明确等级分类与责任归属,让报警处理工作变得井然有序,“救火队员”也减少了三分之一,这就是人工智能在运维工作中的实际价值。