数字银行智能运维系列专题已经进入尾声,已经发表的文章从管理和技术上全面解释了如何构建智能根因分析系统。这篇文章主要阐述系统背后的IT异常事件管理思路,包含异常识别、异常影响评估和通报等,通过自动化、智能化手段来提升异常事件管理效率,帮助缩短平均修复时间(MTTR ,Mean Time to Repair)、增加平均无故障时长(MTTF,Mean Time To Failures),从而达到降低业务损失的目的。 前文回顾 专题 | 智能时代下的运维
一个异常事件的生命周期包含发现阶段、处理及恢复阶段和总结回顾阶段,每个阶段都有对应的管理要求: 发现阶段需要快速识别异常事件并通报给关联人员;处理及恢复阶段需要实时监控异常影响并进行必要的管理升级,确定异常事件恢复方案并快速恢复服务;总结回顾阶段需要对异常事件进行总结,包括异常的实际影响,后续如何避免重复发生等。下文将对异常事件全生命周期管理各个阶段进行详细的阐述。
图1 异常事件生命周期管理
异常事件管理的关键是能及时识别到异常并启动异常事件应急响应机制,调度IT各项资源尽快恢复服务、降低影响。微众银行根据实际造成的影响,将异常事件分为多个级别。评级维度包括是否影响关键产品、影响时长、影响量、影响交易占比等。不同的异常事件级别有对应的响应要求和升级要求。
通过RCA的异常检测智能算法实现了关键产品业务指标(交易量、成功率、时延)异动的自动发现和预警,即使用机器学习算法实现无阈值的曲线异动识别。算法检测出来的离散的异常指标先经过聚合处理,变成一个个事件。每个事件再根据影响程度定义不同的级别,以确定后续的处理流程。
异常影响分级模型排除恢复时间的不确定性,将影响业务的重要性、影响面、异常指标严重程度作为评估参数,其中业务重要性通过产品重要性、场景重要性来衡量,影响面通过影响的产品、场景数量来衡量。每个异常都会根据三类参数、通过算法计算出影响分值,匹配出对应的异常事件级别,具体过程如下图所示:
图2 异常影响分级模型示意图
模型解释:
异常事件影响=∑产品系数 * 场景系数 * 指标分值
以上模型同时实现对部分已知低风险场景的降级处理,比如单个用户的重复尝试、计划性维护、周期性业务活动等带来的指标波动。 异常影响分级模型投入使用一年多,根据模型计算的异常事件级别准确率达95%以上,能有效地完成事件级别的初判。下图是一个异常事件的影响级别展示示例:
图3 某次异常的影响及级别
不同分级的事件对应不同的处理流程和通报要求。普通事件自动通知产品运维团队,按事件管理流程处理。异常事件除了普通通知手段外,还启动电话通知,并同时进行管理升级,自动通报管理层相关领导,启动异常事件响应机制。
随着异常事件的动态发展,异常涉及的产品和指标可能会发生变化,事件级别也会随着动态更新,并触发相应的升级机制。
在异常事件持续过程中会周期性计算从异常开始到当前时间对业务的实际影响,并通报相关人员。工作时段、非工作时段分别由不同角色人员负责升级提醒,双重保障机制。
当RCA异常事件涉及的产品和指标部分恢复时,智能分析平台将动态更新指标恢复比例,让异常事件处理团队实时掌握事件处理进展。在恢复过程中,异常事件处理团队需反馈事件原因,一线运维团队协助跟踪和反馈,作为后续总结及复盘的依据。
异常事件恢复后,会进行两个层面的回顾:
1.关注事件本身,后续如何避免类似事件再次发生:
普通事件总结需要改进的点报问题跟进处理;异常事件须深度回顾处理过程,总结存在问题,在技术上、管理机制上制订改进措施,形成总结报告,并跟踪报告中记录的改进项的完成状态,未来将观察是否有相同原因导致的异常事件发生,从而验证改进措施的效果。
2.关注RCA 异常检测和根因分析,需优化的方面包含:
通过复盘,可以推动在如下方面做优化:
总结和回顾环节对异常事件管理异常重要,意义在于:
只有总结和回顾环节真正得到落实,建立有效的反馈机制,才能让RCA变得越来越智能,发挥更大的作用。
RCA项目实施后,通过技术手段给异常事件管理带来了很多收益:
另外,在异常分析过程中,我们自始至终贯彻了一个核心思想:一方面通过自动化和智能化帮助异常事件更加透明和高效,另一方面,通过科学管理手段,并结合运维专家的专业能力,提供全流程支持。当异常事件升级到较严重的程度,需要专业的运维管理人员决策和调度协调线下资源,确定异常事件的恢复方案、推动方案落地实施。在整个异常结束后,也需要专业的运维团队进行异常的回顾与分析,提出改进措施和跟踪改进方案的落地,持续指导RCA的优化方向。对于自动化和智能化而言,运维管理人员充当了老师的角色,提供源源不断的专家经验,监控或批改自动化或智能化的输出结论,保障运维平台建设始终服务于运维管理要求。
欢迎各位朋友交流指正。如果希望了解我们在智能运维中使用的机器学习算法以及支持根因分析的具体方法,请参阅该系列其他文章。
作者简介
作者系微众银行智能运维系统高级产品经理 刘世芬
领取专属 10元无门槛券
私享最新 技术干货