导读
本文介绍了某商业银行基于 TiDB 和 Kubernetes(简称 K8s) 构建的云化分布式数据库平台,重点解决了传统私有部署模式下的高成本、低资源利用率及运维复杂等问题。
通过引入 TiDB Operator 自动化管理与容器化技术,银行能够实现多个业务系统的高可用、弹性扩展与自动化运维,极大提高了运营效率与资源利用率。本文还详细阐述了平台架构设计、面临的技术挑战及创新解决方案,展示了 TiDB 在金融行业数字化转型中的应用前景。
某商业银行新一代业务金融云建设,以某国有大行新一代业务解决方案为建设蓝本,目标是利用新架构满足业务快速迭代的要求,提供较强的业务处理能力和灵活扩展能力,加快数字化转型和业务创新等,同时满足降本增效要求。其中,选定 TiDB 分布式数据库集群的上云应用系统合计超过 100 个,涉及核心、金融服务、渠道管理/整合、中间业务、个人贷款、对公贷款、组件服务、公共业务管理、数据分析等多个银行重要业务领域,系统重要等级高,需要具备两地三中心部署、同城双活能力,且同城和异地 RPO、RTO 满足系统对应的高可用和灾备要求。按原私有部署模式(OP),该项目常规需要物理机 300-600 台,考虑客户自身运营规模,系统建设迫切需要建立成本低、使用便捷的 TiDB 云化平台支持服务体系,全面减低 TiDB 部署、测试、运维等成本。
目前业内主流的 OP(私有)TiDB 部署方案,基于独立物理服务器,存在以下问题:
该银行通过 TiDB Operator 自动化部署能力和 K8s 成熟的容器集群调度管理能力和 TiDB 数据库的高可用能力,构建 TiDB 云化平台。
整体目标是建立满足某商业银行自身业务发展的 IT 系统及架构,实现金融数字化转型,具体系统建设目标为:
TiDB 是平凯星辰公司自主设计、研发的开源分布式关系型数据库,是一款同时支持在线事务处理与在线分析处理 的融合型分布式数据库产品,具备水平扩容或者缩容、金融级高可用、实时 HTAP、云原生的分布式数据库、兼容 MySQL 协议和 MySQL 生态等重要特性,适合高可用、强一致要求较高、数据规模较大等各种应用场景。 TiDB Operator 是 K8s 上的 TiDB 集群自动运维系统,提供包括部署、升级、扩缩容、备份恢复、配置变更的 TiDB 全生命周期管理。借助 TiDB Operator,TiDB 可以无缝运行在公有云或自托管的 K8s 集群上。
基于上述要求,TiDB 云化建设整体架构如下:
整体设计特点如下:
最近几年原生 K8s 技术演进发展迅速,新功能特性层出不穷愈加丰富,从技术可行性评估,容器技术早已具备支持有状态应用的能力,但是 K8s 对数据库等有状态的应用的支持,因数据库应用的特殊性,需进行一定的适配开发,以使数据库容器化的整体架构方案和技术优势和价值达到最优。
在此背景下,基于 K8s+Operator 构筑数据库容器化方案落地过程中,将会面临以下几方面技术难度:
1. K8s 灾备能力:从近期著名云厂商多起史诗级故障来看,冗余的 K8s 集群可用性远远大于单一 K8s 集群,需要有效使用多 K8s 集群技术;
2. TiDB 高可用部署:TiDB 数据库需要保障 K8s 集群下数据一致和高可用;
3. 多业务隔离能力:需要满足该银行业务体量,支持小库归集、多业务隔离部署和资源隔离能力要求;
4.存储:容器针对无状态应用的分布式存储,并不适用于数据库应用场景;需要针对数据库容器,提供一种既满足数据冗余,又能满足 DB IO 性能要求的存储方案;
5.运维便捷性:原生 K8s 主要面向的是 CI/CD 应用场景,对数据库的运维场景支撑并不完善。方案需要有效降低运维成本,无缝对接行内现有数据库运维生态体系及工具。
1. K8s 灾备能力
随着 K8s 技术越来越成熟,企业以 K8s 为基础构建基础设施层的场景越来越多,虽然单个 K8s 集群的容量不断增加(例如:K8s v1.24 版本,单集群最多可支持 5000 个节点和 15 万个 Pod),但实际生产场景中,将所有业务都部署在一个集群会导致单点故障,当单个集群出现故障时,无法进行故障转移,将造成业务故障。
通过引入联邦集群技术,构建多个不同地域、不同形态的容器集群组成,不仅能够解决上述单点故障题,还能够实现多集群统一管理和一致性观测等。
方案示意如下:
如图,K8s 集群采用联邦集群技术,可在单个数据中心部署 3 套 K8s 集群解决 K8s 单集群单点故障;主集群上是一个启用了多集群功能的 K8s 集群,可以使用它提供的控制平面统一管理。成员集群是没有中央控制平面的普通 K8s 集群。集群管理员可通过主集群访问控制平面,管理所有成员集群,例如查看和编辑成员集群上面的资源;单个成员集群只能访问和看到自身资源。
2. TiDB 高可用部署
根据业务重要程度,该商业银行对应用项目有 A/B/C 三种分类,具体如下:
其中,重要等级为 B/C 类的应用项目,可采用单中心方案,如下图所示:
部署说明:
重要等级为 A 类的应用项目,可采用同城双中心+异地灾备部署方案;部分高等级 B 类系统,可采用同城双中心(不需要提供异地灾备),如下图所示:
部署说明:
高可用方案能力总结如下:
3. 多业务隔离能力
在 TiDB 云化平台上,首先需要保障 K8s 原生的命名空间(NameSpace)和资源配额 (ResourceQuota) 能力,保证不同业务的 TiDB 服务 Pod 能有效资源隔离,不会相互干扰;其次,需要保障基于 K8s 原生 Pod 调度能力,节点选择(NodeSelector)、污点容忍度(Tolerations)、亲和/反亲和(Affinity/AntiAffinity),可按需在不同 K8s 节点上调度各类 Pod,完美解决 TiDB 各类计算、存储服务的混合部署时互相干扰的难题。
如上图所示,在云化 TiDB 平台上,运维人员只需要为上线业务选择合适的 Pod 规格和 Pod 个数后,可以一键部署集群,而无需关心 K8s 具体的资源分配、Pod 编排调度细节。
4. 存储
数据库应用为重 IO 应用,磁盘负载很重,因此,如何保障数据库容器的磁盘 IO 和吞吐量,成为了容器数据库方案设计的重中之重;系统设计时有 2 种方案供选择:
考虑到 TiDB 产品的存储服务 TiKV 会自动维护多副本(默认为三副本),架构如下:
如上图,TIKV 主要特点如下:
因 TIKV 天然支持高可用和自动故障转移,解决了本地存储方案中数据无法冗余的缺点,同时继承该方案能为数据库容器提供足够的磁盘 IO 和吞吐优点,兼顾数据高可用性和存储成本优化,因此经大量验证测试后,选择使用本地存储方案(localPV)来实现 TiDB 云化持久化。
5. 运维便捷
TiDB 云化平台基础架构,围绕 TiDB 服务适配设计定制开发,运维优势体现在:
基于 K8s+TiDB+TiDB-Operator 构筑的云化 TiDB 平台于 24 年 5 月一次性上线了 100+ 业务应用系统,运行平稳。该项目主要收益如下:
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。