阅文集团是一家以数字阅读为基础,IP培育与开发为核心的综合性文化产业集团。集团汇聚了强大的创作者阵营、丰富的作品储备,覆盖200多种内容品类,触达数亿用户,已成功输出《斗罗大陆》《斗破苍穹》《鬼吹灯》《盗墓笔记》《琅琊榜》《庆余年》等网文IP改编的动漫、影视、游戏等多业态产品。
阅文游戏是阅文集团旗下负责游戏制作与发行的品牌。2024年4月,由阅文游戏制作并发行的《斗破苍穹:三年之约》在国内开服发行,项目规模较大,玩家范围较广。全游均部署在腾讯云国内服务上,鉴于海外版本的运营经验,业务高可用建设和混沌演练成为保障游戏顺利上线的重要任务
伴随着游戏行业的高速发展,业务架构复杂程度不停增长,对业务稳定性的要求变得更苛刻,这对云上IaaS和PaaS服务的产品能力是一个不小的挑战。腾讯云联合阅文游戏针对服务器宕机,数据库不可用和单可用区故障等常见故障场景,从搭建同城多活架构,业务链路压测到混沌容灾演练三个方面着手,对《斗破苍穹:三年之约》的平台服和游戏服的架构进行夯实加固
游戏总体可分为平台服和游戏服,均采用同城双活方案,借助云产品的高可用能力,包括CLB,MySQL, TKE, Redis和CKafka等产品实例主备跨区部署,保障可用区级别故障下业务可自助逃生,以最快时间恢复对外服务能力。
在考虑游戏行业普遍存在的波峰波谷交替的这种波动性影响,特别是新开服大量玩家短时间内同时访问游戏这种场景下,对系统的弹性伸缩能力有极高的要求,腾讯云通过TKE容器产品的HPA,超级节点等特性助力业务在高峰期快速完成资源扩容应对流量高峰
国内新游平台服和游戏服全链路均具备同城双活逃生能力,在模拟单实例及单可用区重大故障时,所有产品均具备分钟级自动告警能力,同时IaaS产品具备可根据预案人工介入快速恢复能力,PaaS产品具备产品自动主备切换快速恢复能力,且恢复时长不超过15min
由阅文游戏侧运维主负责人确定参演业务名单及演练整体流程安排,腾讯云侧安排售后技术专家进行现场派驻提供技术支持
腾讯云售后技术专家根据演练项提供预期告警表现和预期演练结果,并和阅文游戏侧运维团队设计回切方案及紧急恢复方案
混沌演练涉及产品众多,包含CVM,CLB,MySQL,Redis,TKE,CKafka等,如果逐一进行故障编排工具开发,成本较高且效率较低。为此次演练腾讯云混沌团队提供基于混沌工程原理及腾讯云最佳实践的故障演练平台,内含丰富的故障动作库和典型的行业经验模板,提供高效的可视化演练和可靠的安全防护策略,并在结束演练后提供完备的演练报告。
根据预先制定的演练方案,在腾讯云混沌演练平台上提前创建好演练任务,包括选取经验模板,编排动作组,选择演练实例对象,配置动作执行方式和监控指标
云顾问·混沌演练平台提供可视化视图,用户在演练过程中可以实时查看故障动作执行状态(成功/失败/执行中)和注入效果:
通过提前配置的业务侧告警,云监控告警以及混沌演练平台执行记录可以及时观察到演练过程及结果是否符合预期以及故障注入后系统稳态指标的表现。
从观测结果可以看出混沌演练平台故障注入成功,目标实例均呈现出应有的表现,并能按照预期进行切换,完全模拟出了预期的故障场景
通过游戏服+平台服的多次混沌演练,该款游戏高可用架构改造后的系统稳定性和可靠性得到了有效验证,达到了“全链路均具备同城双活逃生能力,所用云产品具备分钟级自动告警能力,恢复时长保持在15min内”的目标。
混沌演练过程中也发现了系统运维方面存在的问题,包括云监控告警,系统单点问题和应急预案的不足,帮助阅文游戏侧规避了潜在的风险。同时通过多次跑完演练流程,从制定计划、准备环境、正式演练到复盘总结,大大地完善了混沌演练流程的规范性,提升整体运维效率。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。