2023年12月27日,由中国信息通信研究院、中国通信标准化协会主办的2023系统稳定性与精益软件工程大会在北京举行。腾讯专有云《基于AZ内故障演练的专有云服务风险隐患排查》荣获第二届云系统稳定安全运行优秀案例-混沌工程实践优秀案例,《专有云机房断电恢复应急处置实践案例》荣获云系统运行故障应急处理实践优秀案例。
稳定稳健是客户基础和核心需求
云服务的不稳定可能导致数据丢失、应用中断、性能下降等问题,给企业带来巨大的损失。腾讯专有云交付面临多行业和海量服务的批量交付,从用户分类来看,约80%的客户属于金融客户,金融客户对云平台可用性要求相比其他行业更高。在海量交付的背景下,风险隐患排查在专有云稳定性体系建设中十分重要,因为任何一个风险都可能在多个客户局点爆发。
云系统架构复杂,系统内的各个产品互相依赖,一旦发生机房掉电故障,会导致机房内大面积宕机,恢复服务不仅需要恢复电力、网络等基础的硬件环境,还需要能够及时有效地恢复云系统中的服务。
腾讯专有云的稳定性建设之路
因此,腾讯专有云持续完善稳定性体系,大力发展混沌演练、容灾切换、机房掉电恢复等核心能力并积极推动实战演练,力保客户服务的稳定运行。
腾讯专有云通过对历史上数次掉电恢复的流程进行梳理,抽象出通用流程,采用平台化的思路实现了故障应急处理平台,紧扣提升服务恢复效率的目标,对之前手工掉电恢复的耗时点进行深度分析,提出了服务开机自启动、分批次启动服务、进度实时大屏播报等平台能力,降低了故障对客户业务的影响,将恢复故障的耗时由之前手工方式的数小时缩短到30分钟以内,并在多个私有化交付场景中落地。
我们基于历史故障根因、触发环境以及故障反映出的系统架构缺陷,设计合理的AZ内故障场景以验证复杂系统和单个应用的稳定性。通过混沌工程演练平台对云平台及云产品进行AZ内故障自动化演练,从而进行风险隐患排查,提高云平台及其云产品的稳定性和可靠性,为用户提供更加安全、稳定的云服务。该方案还为云产品设计了严格的混沌成熟度标准,配合周期性的红蓝对抗演练来进行评分,进一步推动风险整改,累计发现并解决问题,以及产品、交付工艺、低阶网络设计等优化几十项。
最终,腾讯专有云凭借其在混沌工程、机房断电恢复能力上的建设以及实践效果,获得第二届云系统稳定安全运行优秀用例。
目前腾讯专有云TCE和TCS已经在金融、零售、政务、政法、交通、出行、广电、地产、制造等众多行业取得大量成功案例落地,在业界获得了广泛的认可。
未来,腾讯专有云将持续建设稳定性体系,优化混沌、容灾、掉电恢复的平台能力并大力推动在产品、机房、地域维度的演练实践,建设成为让客户安全可信赖的云服务商。