导语
相对于过去单体或 SOA 架构,建设微服务架构所依赖的组件发生了改变,因此分析与设计高可用容灾架构方案的思路也随之改变,本文对微服务架构落地过程中的几种常见容灾高可用方案展开分析。
作者简介
刘冠军
腾讯云中间件中心架构组负责人、专家工程师
15年 IT 从业经验,第一份工作服务于 IBM 中国实验室,曾任职 IBM 大型机中间件研发总监。现任腾讯云专家工程师,中间件中心架构组负责人,负责中间件产品中心架构师团队及 PaaS 平台产品售前工作。共获得16项专利授权,在事务处理、web 服务、微服务、消息队列和银行架构等方面有着丰富经验,支持过国内外多家大中型客户。
概述
相对于 SOA 架构,微服务架构使用去中心化的方式组织业务应用,服务之间的通信不需要经过总线,服务路由的逻辑下发到各个微服务中自行完成。另一方面,微服务架构也离不开中心化的组件实现服务治理、应用部署、监控等功能,微服务场景下主备、多活等高可用容灾方案的设计需要通盘考虑。
在分析复杂的容灾架构前,我们首先应当明确问题的定义,拆解问题,分解子问题,从不同维度分开讨论才能获得一个清晰的结论。当我们讨论主备、双活等高可用模式时,不同的高可用模式对于应用、数据库、注册中心等组件的含义不是一样的,但各组件又相互关联。在笔者看来,一个完整的微服务架构组件包含三个维度:
1、微服务管控层:由于分布式架构带来了复杂性,需要引入相关的分布式支撑组件。
2、应用层:应用尽量无状态化,降低部署的难度。
3、数据层:目前大多数应用使用关系型数据库,当前关系型数据库的技术水平还不能很好的支持多实例多写,所以对于数据库只能讨论主备模式,关键点在于主备切换的自动化以及数据复制的延迟,分别降低故障恢复的 RTO 与 RPO。
同城主备
同城主备(Active-Standby)往往是双 AZ 部署,AZ 间距离需要满足监管要求。双 AZ 同时只有一个主 AZ 对外提供服务,另一个备 AZ 用做备份,往往只需要部署少量资源。
部署方案:
应用层异常分析
对应用层几种异常场景进行分析: 1、单个微服务实例故障:微服务需要做多实例部署,单 AZ 内可容错。
2、某个微服务的所有实例故障,可能原因有两种:
3. 整个 AZ 所有实例故障:这种情况整体启用备 AZ,切换用户流量。
微服务管控层异常分析
TSF 微服务管控层可以分为两个层次: 1、发布时组件:主要影响应用的发布功能,组件故障影响应用的发布、回滚,不影响应用运行。TSF 组件本身均为无状态,可多实例部署,不影响应用运行。底层依赖 MySQL 数据库主从部署,可单独跨 AZ 部署,避免单点故障。
2、运行时组件:分为两个层次:
关于 TSF 管控端的高可用深入分析可参考后续系列专题文章。
数据库层异常分析
由于数据库是单点,单 AZ 内有可能出现单点宕机,故障时可切换至同 AZ 备节点或同城备节点,类似于 TDSQL 的一主多从模式,TDSQL 也可实现 IP 自动故障切换,应用无感知。
同城双活
用户所有的业务系统同时在两个数据中心运行,同时为用户提供服务,当某个 AZ 的应用系统出现问题时,有另一个 AZ 的应用来持续的提供服务.
部署方案:
数据库层高可用部署模式仍为一主多从,后面不再对数据库层进行异常分析。
应用异常分析
对应用层几种异常场景进行分析: 1、整个AZ宕机:利用 GSLB 或者跨 AZ 的 LB 等技术切换至另一个 IP,同时这层能力可以实现负载均衡。
2、微服务间调用容灾:TSF 支持 AZ 内就近路由,AZ 内实例不可用时跨 AZ 调用。
添加测试环境路由插件依赖
目前 TSF 基于跨 AZ 的 VIP(客户提供或者 TCS/TCE 提供)实现注册中心等组件自动切换至另一个 AZ,在单 AZ 故障时应用无感知自动切换另一个 AZ 的管控端。
两地三中心
两地三中心建立在同城双活+异地灾备的基础上,兼具高可用性和灾难备份的能力,其中异地灾备中心 是指在异地的城市建立一个备份的灾备中心,用于双中心的数据备份,当双中心出现自然灾害等原因而发生故障时,异地灾备中心可以用备份数据进行业务的恢复。
整体架构是同城双活+主备的组合方案。
部署方案:
异地多活
异地多活的前提是架构能够实现两地三中心,并且在数据库层面做了水平分片,业务应用与数据库分片成组绑定。异地多活能够将故障范围缩小在单个分片内,并且减少数据库复杂度。一般对于数据量非常大的国家级银行/保险会采用这种架构。
方案又分为两种:异地互备与单元化,以下分开介绍。
异地互备
数据库层面水平拆成两个实例分片,例如可以按地域拆成北方、南方。
部署方案:
容灾切换策略:如南方城市整体故障,入口出做 DNS 切换南方用户访问 IP 至北方。
单元化
一般如果数据量过大,单纯使用数据库 Sharding 模式无法解决问题,可以考虑使用单元化架构。首先明确单元的定义,单元是一组计算资源和一组数据资源在逻辑上的绑定,设计的关键点包括:
部署方案:
单元异常分析:
基于单元化的异地多活
异地多活的概念澄清:
单元化支持异地多活:单元化架构下,由于数据做了分片分单元处理,把不同的单元放在不同的 Region 上处理。天然的实现了上面所提的异地多活充分利用机器资源的目标。各 Region 在分单元处理业务的同时,也作为灾备中心为异地的其他单元提供应用和数据的异地灾备能力。 目前 TSF 产品已经实现单元化能力,同时为了实现单元化异地多活的诉求,TSF 在最新版中实现了跨地域多集群互相发现互相访问的能力,如下图所示。
总结
以上基于微服务架构,从各个分层对高可用方案分别展开剖析,各个分层对高可用架构的设计是相辅相成的,每个高可用方案下任何一层能力的缺失可能都无法达成期望的目标。上述各所介绍的各种高可用架构,TSF 过去在各行业客户都有过落地,也积累了比较丰富的经验。总的来说,架构设计是在做取舍,没有完美的方案,一方面应遵循简单原则,架构设计越简单,越容易落地,运维复杂度越低,成本也越低,另一方面根据实际需求,如监管要求、部署现状、业务数据量等,结合客观条件限制选择合适的方案。
往期
推荐
《Apache pulsar 技术系列-- 消息重推的几种方式》
《Apache Pulsar 技术系列 - GEO replication 中订阅状态的同步原理》
《基于 DTS 同步 MySQL 全增量数据至 CKafka,构建实时数仓的最佳实践》
《业务高速增长,如祺出行如何用腾讯云消息队列 RocketMQ 应对挑战》
了解更多微服务、消息队列的相关信息!
解锁超多鹅厂周边!