在过去的两年时间里,行业内涌现出了众多应当引起我们高度警觉的事故案例,例如阿里云香港 PCCW 机房制冷系统出现故障、广州电信科华数据中心冷却系统发生故障、微软澳洲数据中心制冷单元丢失故障等等。对这些案例加以了解和剖析,不难洞察其中的共同之处:现场运维团队在应对突发状况时,存在应急预案不够完善、应急处置不够及时等问题。故而,如何构建完备的应急应对体系,并保证应急程序得以有效施行,成为每一位机房管理者亟待解决的现实难题。依据笔者过往的运维经验,能够通过建立 EOP、制定并执行 EOP 培训计划、进行回顾更新等步骤来实现运维团队应急能力的构建。
在紧急情况发生时,受本能驱使,人类往往会倾向于做出对自身有利的最简单行为,然而这种行为通常难以对紧急处置产生积极作用。通过构建有效的 EOP,能够助力运维团队掌握相关技能,指引他们在应急场景下采取有效的行动。
EOP 的终极目标在于,当紧急情况出现时,能够在对业务造成影响之前隔离故障设备,保障业务的稳定运行,或者在影响产生后能够迅速、安全地恢复业务运行。为达成上述目标,EOP 通常需要满足如下基本要求:
在实际运用中,一份 EOP 应当包含如下基本内容:
颠覆我们认知的是,在一个高水平、稳定运行的数据中心里,由于设备故障较少,紧急状况鲜少出现,因此运维团队普遍欠缺应对紧急情况管理的实际经验,这正是我们需要重视 EOP 培训的缘由。
为了全方位提升运维团队的应急处置能力,EOP 培训计划应当面向全体成员,并根据不同的岗位和经验水平制定具有针对性的培训方案。
具体到岗位来说,可以参照如下原则:
具体到实际经验而言,可以参照如下原则:
数据中心投入运行后,为确保业务运行的可靠性和稳定性,高风险变更操作通常受到严格管控,EOP 培训通常难以通过实际操作进行,而采用如下方式开展:
用于帮助参与者学习 EOP 在执行过程中的流程和行动项,掌握典型设备故障的应对顺序和操作步骤。这种培训的开展方式较为灵活,且场地、时间不受限制,可以通过参与者相互问答、在线互动题目等形式进行。需要注意的是,在培训设计时要突出关键操作步骤后的结果预期,为参与者预留一定的判断和思考空间,以帮助参与者深化对 EOP 的理解,而非单纯地对操作步骤死记硬背。
用于帮助参与者熟悉设备的位置,并准确地执行 EOP 内要求的各种流程和动作。这种培训通常有桌面推演和跑位两种模式,可根据运维团队的实际情况和工作安排开展。培训的组织者在培训的过程中应当关注负责执行 EOP 的人员是否能够充分理解 EOP 的所有内容并运用,在培训结束后应及时收集参与人员的反馈用于评估 EOP 的有效性。
此外,强烈建议运维团队深度参与验证测试和认证(如 CQC、等保)等相关工作,并在此过程中进行实操演练。
EOP 作为运维团队应对紧急情况的有力手段,需要在数据中心的整个生命周期内保证其有效性,包括如下三个方面:
EOP 的回顾更新操作应当融入日常运维工作之中,主要通过日常回顾和外部协助两种方式开展:
顾名思义,是运维团队在日常工作中根据反馈更新 EOP 的一种方式。在这种方式中,反馈的来源丰富多样,不仅包括定期开展的情景模拟、模拟演练等培训,还涵盖实际执行的复盘总结、行业事件的经验反馈等。
主要通过借助外部合作伙伴,如设备供应商、工程总包方、测试服务商、认证服务商等的支持来实现对 EOP 的反馈与更新,通过他们,我们能够确定 EOP 程序和操作的有效性,获取非正常状态下的操作建议,以及同行业或相近行业的经验反馈等。
在数据中心的日常运维工作中,意外难以杜绝,而针对突发情况的应急能力是对运维团队组织能力、技术水平、日常培训成果的综合考验,需要持续、深入地投入,方能在危急时刻从容不迫,应对自如,保障数据中心的运营和业务安全。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。