数据中心运营质量管理指的是在数据中心运营的全生命周期中,有计划、有策略地对数据中心各子系统(IT、配电、空调、自控、安防、消防)进行巡检、维护、改造、优化等工作,确保各子系统都能保持在一个可靠的、稳定的、良好的工作状态,为业务提供物理环境上的安全保障。
(1)举例:实现腾讯某数据中心全年电力系统可用率指标99.9999%。
(2)举例:实现腾讯某数据中心全年制冷系统可用率指标99.9999%。
(3)举例:实现腾讯某数据中心基础设施全年可用率指标99.9998%。
数据中心基础设施可用率=电力系统可用率×制冷系统可用率。
(4)电力、空调系统中断重大事件为0。
(5)动力设施设备平均无故障时间 MTBF>1年。
MTBF(Mean Time Between Failure)是指相邻两次故障之间的平均工作时间;
(6)人为运营事故为0。
(7)满足《运营流程SLA设施故障处理耗时指标》中要求的故障响应和解决时间。
为确保达成以上各项质量管理目标,在不同时期,需要制定不同的技术管理应对策略,以最终确保运营质量管理目标的达成。
质量管理的工作分类
按照日常工作种类划分,质量管理主要可分为以下几块内容:
线上运行
线上运行指的是通过现场巡检、远程监控、参数调优、切换操作、故障演习等手段,提前发现系统潜在问题和不足,并做必要的运行模式及参数调整,确保系统持续运行在一个可靠的、稳定的、良好的工作状态。
在“运行”的工作内容中,又由以下三个工作部分组成:
系统巡检
指的是对IDC运营中的各系统(IT、配电、空调、自控、消防、安防)的工作状态进行检查,目的是通过“现场巡视和监控系统”,主动性地查找和发现设备和系统的故障、隐患等问题。按照巡检设备风险等级,又分为日常例行巡检和高危设备巡检。
系统操作及参数调优(简称:系统运行维护)
指的是对系统做在线维护工作。目的是让系统运行得更安全、更节能、更高效。这些维护工作包括:主备机轮循、故障切换与恢复、系统运行参数调优、运行模式调整。
主备机轮循:各系统出于“安全”考虑,往往设置有备份机组,比如UPS或冷机并机系统通常采用“n+1”备份模式,考虑到“设备检修保养”和“平衡设备作息时间”,需要做主备机轮换的操作,让每台设备工作和休息时间保持均衡,这样设备才能劳逸结合,“延年益寿”。
故障切换与恢复:当线上运行中的设备出现故障时,对故障设备进行系统安全隔离,并启用备用设备取代故障设备工作,当故障设备完成线下检修后,根据需求,再行恢复其原有线上工作状态。
系统运行参数调优:各系统在运行时,如何保持一个最佳的工作状态(安全、节能、高效),需要运营人员通过对系统设定参数不断调整来达到。这份调优工作是长期的,反复的。
运行模式调整:在某些系统中(比如制冷),其工作模式会随着末端IT负载量及室外环境温度的变化而变化,这就需要运营人员根据这些因素不断对系统进行工作模式的调整,以达到系统时刻保持在最佳的工作模式和工作状态上。
线下维护
线下维护指的是通过掌握设备的维保规律,提前对设备进行预防性维护和保养,以及对运行中发现的故障(或问题)及时有效地跟进解决,最终确保系统中的所有设备都能保持(或恢复)良好状态,为系统的安全运行提供坚实的保障。
维护主要由以下2部分组成:
设备保养
设备保养指的是在日常运行中,观察设备的运行参数及运行状态,在设备的各个零部件生命周期尚未进入老化阶段(或影响使用)之前,或是设备的内部运行参数和运行状态开始出现偏离正常指标范围之前,对设备进行预防性维护检修工作。目的在于杜绝或减少不可控的突发故障。
问题跟进与故障维修指的是对运行中发生的事件、问题、故障,指定专人专职负责跟进督办或维修,直到问题解决。在解决时间上,参考《运营流程SLA设施故障处理耗时指标》标准。
风险控制
运营人员基于以往的经验教训总结,应该意识到所有运营重大事故的发生都是有潜伏因素的,它们可能是系统设计建设或运营管理不足造成的。这些因素是系统安全运行潜在的“地雷”,它们对运营质量构成严重威胁;在有了上述风险意识后,运营人员通过主动查找、提前预防、过程控制、应急预案、应急演习等全过程控制,提前规避和控制已预见的问题风险,杜绝运营事故的发生。
按照时间划分,风险防控应从以下几个阶段中加以规避和控制:
设计建设参与
为使数据中心的“规划、建设到运营”三个环节形成良性闭环,达到“设计指导建设,建设影响运营,运营促进设计”的目的,运营侧需要设立“产品经理”的跨团队沟通岗位,把运营实践过程中出现过的问题总结和反馈到规划设计和建设,并从运营的角度,对规划设计和建设提出“优化改善建议”和落实“质量监督”,最终达到“实践检验和完善设计”的目的。
工程验收
建设项目在进入“功能验证测试”阶段及“工程安装质量验收”阶段时,不仅全体建设人员需要参与,作为“最终用户”的运营团队,更需要参与和最终把关。因为运营人员作为日后的“直接使用方”,产品的质量问题与其自身的使用体验息息相关。设备正常使用下的运营体验好与坏,可以直接说明产品(或工程)的质量问题;所以,从“关注产品质量”的验收角度来看,运营在工程验收上,需要有评判权。
风险控制与优化
对于既成的设计和建设不足,一旦进入运营阶段,需要运营人员通过推动厂商“持续优化”,或采用“零星工程改造”的方式来消除隐患,弥补缺陷。
应急预案及演习
目的是培养运营人员现场应急操作能力及系统操作能力。如在演习操作中发现系统隐患及自身运营能力的不足,可以及时做调整和优化。
以上“三者”联系
线上运行,它体现了运营对在线系统的检查和维护;
线下维护,它体现了运营对线下设备的检查和维护;
风险防控,它体现了运营人员对质量管理的风险意识。这种风险意识和防控措施是贯穿于数据中心的整个生命周期,从源头规划设计、建设施工、工程验收、后期优化到应急演习。只有在各个环节中关注和预防风险,才能将运营风险降到最低,提升和巩固运营质量。
以上三者的相互协调工作,使得运营真正实现线上和线下、源头和过程的三维纬度的质量管理,消除运营风险隐患,提升系统安全系数,巩固运营质量成,最终达成质量管理的目标。