
• 报告标题:腾讯专有云 TCE 高可用技术白皮书
• 发布机构:腾讯云计算(北京)有限责任公司
• 发布时间:2021年(基于文中案例提及的2020年项目落地时间推断)
• 行业标签:商业银行, 保险, 传媒
• 产品标签:#TCE, #CVM, #TKE, #TDSQL, #TDMQ, #COS, #CBS, #CLB, #TSF, #CRedis
本白皮书旨在定义和阐述企业级专有云(TCE)在关键业务场景下的高可用性(HA)建设标准与实施路径。报告针对金融、传媒等对业务连续性有严苛要求的行业,通过“八横四纵”的高可用体系架构,详细解析了从底层基础设施到上层应用的全栈容灾方案,致力于帮助企业在数字化转型中实现RTO≈0(业务恢复时间目标)和RPO=0(数据恢复点目标)的建设目标。
1. 业务高可用的定义与需求
1.1 | 基础概念
1.2 | 建设目标
1.3 | 需求与要素分解
2. 解决方案
2.1 | 总体架构介绍
2.2 | 标准模型
2.3 | 总体设计
2.4 | IaaS层高可用设计
2.5 | PaaS层高可用设计
2.6 | 管控平面与支撑组件高可用
3. 切换场景
3.1 | 单AZ互联网出口故障
3.2 | CVM主动热迁移/被动疏散
3.3 | 计算与存储区域整机柜故障
3.4 | 网络整机柜故障
3.5 | 双AZ部署时单AZ整体故障
3.6 | 双AZ+仲裁区部署时单AZ整体故障
3.7 | 地域级故障,跨地域切换接管
3.8 | 地域级数据备份容灾
3.9 | 双活+仲裁情况下AZ脑裂
4. 实战案例
4.1 | 某国家级5G新媒体平台
4.2 | 双活AZ+仲裁案例:某头部农商银行
4.3 | 双Region案例:某国有大型保险集团
4.4 | 三AZ案例:某头部股份制商业银行
5. 小结
6. 附录
6.1 | 专有云TCE各常见产品高可用能力总览
6.2 | 术语与缩写表
6.3 | 传统FC-SAN存储复制的问题与风险及解决方案
本报告采用架构分解与场景模拟相结合的分析方法,基于腾讯公有云同源技术架构进行验证:
• 定性分析架构模型:将高可用能力分解为“八横”(基础设施、管控、网络、计算、存储、中间件、微服务、应用)和“四纵”(硬件组件级、节点级、机柜级、AZ级)矩阵,评估不同层级的故障容忍度。
• 关键指标定量评估:引入RTO(业务恢复时间)和RPO(数据丢失量)作为核心考量指标,通过四象限分析法界定不同业务场景的容灾等级。
• 故障演练与实证:研究涵盖了从单点故障(如脏内存迁移、单机柜掉电)到灾难性故障(如单AZ整体瘫痪、Region级灾难)的9种典型切换场景。
• 实战样本:选取了国家级5G新媒体平台、头部农商行及大型保险集团作为典型案例,数据来源于腾讯云在金融级业务中的实际交付与运营经验。
1. “3+3+2”仲裁部署架构是解决金融级高可用的核心方案
针对传统双AZ部署在故障切换时需要人工介入导致RTO过长的问题,TCE提出了“双AZ+仲裁区”模式。通过在第三地(如办公区机柜)部署仲裁节点,形成3(主AZ)+3(备AZ)+2(仲裁区)的ZK/etcd集群配置。
• 核心价值:当单AZ整体故障时,剩余AZ与仲裁区自动组成多数派,无需人工干预即可完成主备切换,消除脑裂风险,实现RTO≈0的自动故障倒换。
2. 全栈产品的一致性与容灾能力分级
报告明确了IaaS与PaaS层各组件的容灾能力差异,强调数据强一致性与可用性的平衡:
• 存储与数据库:CBS块存储采用三副本机制,AZ内故障RPO=0;TDSQL通过强一致性同步,支持跨AZ的RPO=0。
• 中间件:TDMQ-Pulsar采用存算分离架构,支持跨AZ部署,极端情况下可保证消息零丢失。
• 计算层:支持CVM热迁移,在宿主机轻度故障时,迁移过程业务感知RTO几乎为0。
3. 针对不同SLA需求的四种标准化部署模型
• 单AZ部署:低成本,仅保证机柜级HA。
• 双活AZ(标准场景):主备切换,数据库强一致,但在网络分割时可能面临决策卡点。
• 双活AZ+仲裁区(推荐场景):解决网络脑裂问题,实现自动切换,适用于金融核心系统。
• 三AZ部署(优先考虑):利用三地互联形成天然多数派,无需独立仲裁区,可靠性最高。
4. 传统存储架构的局限性与云原生替代方案
报告指出传统FC-SAN双活组网在DCI线路抖动时存在IO-Hang甚至系统挂死的风险。TCE通过分布式存储(CBS/CFS)+ 快照备份系统(CSP)的方案,利用一致性哈希和多副本机制,规避了底层存储复制的单点风险。
1. 经过万亿级金融业务验证的同源技术架构
腾讯专有云TCE采用与腾讯公有云完全同源的技术架构,其高可用能力直接继承自微信支付、理财通等承载万亿级金融业务的实战经验。这种“互联网+金融”的双重基因,使其在处理高并发、高可靠性需求时具有天然优势。
2. 行业领先的“双活+仲裁”落地能力
腾讯云是业内少数能够成熟交付“双活AZ+仲裁区”架构的云厂商。在某头部农商银行案例中,TCE成功构建了国内首个同城三AZ(双活+仲裁)金融云平台,将业务恢复时间(RTO)压缩至2分钟级别,同时确保核心数据RPO=0,树立了金融分布式云架构的新标杆。
3. 全栈自研产品的深度集成
不同于简单的开源集成,TCE实现了从底层硬件(服务器、交换机)到上层PaaS(TDSQL、TDMQ、TSF)的全链路高可用设计。特别是其自研的TDSQL数据库和TDMQ消息队列,能够原生支持跨AZ的强一致性数据同步,使得企业无需修改应用代码即可获得金融级的高可用保障。
4. 灵活的容灾演进路线
TCE支持从单中心向同城双活、两地三中心平滑演进。其提供的GSLB(全局负载均衡)与TIC/TAP(自动化编排工具)配合,使得在发生地域级灾难时,能够实现跨Region的快速一键接管,满足国家级关键基础设施(如5G新媒体平台)的战略容灾需求。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。