容灾设计需要进行故障切换的场景 容灾设计过程当中需要考虑的故障切换的场景有很多,数据中心内部的高可用切换不在本次讨论范围之内,我们讨论的是容灾恢复过程中的关键跨数据中心级的故障切换场景,从网络层到存储层都会涉及到 其实从容灾的角度来看,相互独立的小集群LB资源池和跨数据中心的大集群LB在容灾切换功能都是合格的,APP节点故障无论是在大集群和小集群架构下,都可以合理切换。 4.2 HA数据库服务模式 所谓 HA数据库服务模式是指通过操作系统HA软件结合数据库服务实现的容灾架构,架构设计之初是为了实现各类应用服务的本地服务器高可用,但双活容灾技术兴起之后,也常常被用来作为近距离 (百公里内范围)双活容灾的数据库服务架构 。 存储层的故障切换策略 5.1 存储网关服务模式 所谓存储网关模式,我们在《企业容灾选型指南- 2 :企业容灾的数据复制技术》当中介绍过, 就是在物理存储层之上增加一层网关技术,用以形成存储资源透明抽象层
但是基于混合云部署的业务系统往往复杂性高,维护成本大,因此也为业务稳定性带来了不小的挑战,为保证业务的稳定性,进行有规律的容灾演练是一种科学的方式。 但是在复杂的混合云环境中进行容灾演练本身就比较复杂,涉及的云资源之多,进行混合云容灾演练的门槛高。 腾讯云混沌演练平台旨在协助用户便捷地进行云上稳定性治理,平台结合行业经验,形成了混合云容灾演练行业经验,用户可以基于该演练经验一键创建混沌演练或在此模版基础上添加新的故障演练场景,灵活便捷! 混沌演练对混合云容灾的价值体现腾讯云混沌提供了对云上资源类型CLB、CVM、专线、数据库等对象类型的故障,通过混沌演练可以了解云服务不可用时的业务表现,检验故障告警的有效性,同时也可以验证脱离公有云后自身私有云架构的容灾表现 如何快速进行混合云容灾混沌演练腾讯云混沌演练工程结合行业经验,生成了一个混合云容灾演练经验模板,可通过该模板快速生成演练:前往腾讯云混沌演练平台【概览】选择「混合云容灾演练」行业经验模版。
业务容灾是所有容灾中最复杂的一种场景,涉及到业务应用、中间件、数据库及底层的计算、存储、网络等资源。就云上业务容灾来讲整个容灾覆盖到IaaS、PaaS、SaaS层。 在容灾方案确认并且实施落地之后,就需要进行容灾切换演练工作。下面主要介绍下容灾切换演练的流程及具体操作细节。 image.png 一、确保备区所有相关的应用级中间件组件部署完毕。 先假设整个容灾切换场景在广州四区及六区进行,四区是主区、六区是备区。在六区搭建应用部署环境并先不启动业务。 三、执行整个业务容灾的切换步骤 1、应用入口的流量切换。在容灾切换平台上,将系统客户端的流量指向六区。 容灾注意事项: ① 需要确保四区主库设置为只读状态,确保数据一致性。 ② 注意数据是否同步正常。
检验关键服务的跨可用区容灾能力,如架构无单点,具备健康检查、负载均衡等; 2. 检验基础监控、业务指标监控的覆盖是否全面、告警是否及时等; 3. 接入层负载均衡容灾能力 2. 专线网络容灾能力 3. 逻辑层虚拟机、容器集群容灾能力 4. 数据层CDB/CRS/TDSQL容灾能力 上述故障演练均基于腾讯云混沌演练平台(CFG)完成,业务团队在混沌演练平台上完成了实例选取、演练场景动作的编排、可视化故障注入、演练报告等全流程操作。 五、演练总结 此次moomo和腾讯云混沌演练平台的联合演练逐项验证了业务云服务容灾能力,系统的整体可用性和可靠性整体符合要求。 通过演练,客户更好地了解了服务的容灾能力和故障时系统切换流程,提高了对自身服务的信心。 六、混沌演练平台产品介绍 本次演练由客户在腾讯云混沌演练平台上操作完成,更凸显出了平台自动化的重要性。
进行跨 AZ(可用区)容灾和混沌演练变得尤为重要。 什么是跨 AZ 容灾以及混沌演练? 跨 AZ 容灾 它是指在一个云服务商的多个可用区之间进行业务和数据备份、恢复和迁移的能力。 跨 AZ 容灾混沌演练的价值 跨 AZ 容灾和混沌演练相结合,可以帮助企业和组织实现以下目标: 提高业务可用性:确保业务在某个可用区发生故障时能够迅速迁移到其他可用区,保证业务的高可用性和持续性。 提高应急响应能力:通过定期进行跨 AZ 容灾和混沌演练,提高企业和组织的应急响应能力,确保在发生问题时能够迅速采取恢复措施。 如何快速进行跨 AZ 容灾混沌演练? 借助于腾讯云混沌演练平台,可方便快捷地进行跨 AZ 容灾混沌演练时,可以遵循以下步骤: 前往腾讯云混沌演练平台【概览】选择「跨可用区容灾演练」行业经验模版。
数据存储容灾建设主要从数据可靠性和业务稳定性两个维度阐述。这两者有哪些区别呢?
在至少有一个Leader存在的前提下,进行Zookeeper的在线增量、在线减量、在线迁移 在全过程中ZooKeeper不停止服务
维护复杂度高:传统容灾系统的管理、监控、演练和切换操作需要大量专业人员投入。 ,测试成本高可在云端进行无影响演练三、云容灾的核心优势1. 例如,企业可以通过 API 触发云侧资源区编排、执行容灾演练、监控业务健康状况,并在灾难发生时触发自动化恢复流程,提升灾备响应效率。4. 自动化灾备演练(Automated Disaster Recovery Testing)传统容灾演练通常需要人工干预,操作复杂且成本高昂,而云容灾可支持自动化灾备演练,不影响生产业务。 效果对比对比项传统容灾方案云容灾方案成本设备购置+维护成本高按需付费,减少闲置资源扩展能力资源固定,扩展周期长动态扩展,按需分配恢复时间4-6小时30分钟以内演练难度影响生产环境,难度大云端模拟演练,不影响生产最终
IDC时代,业务对网络容灾参与较少,主要依赖数据中心网络容灾建设程度;当到了云的时代,云服务商将底层网络能力产品化后,云上客户更多参与网络容灾建设,提升业务稳定性。 本文从云网络概述,云网络容灾复杂度以及典型案例来介绍云网络容灾建设。 1.云网络概述 云网络概述主要分为云服务商基础设施网络架构和云产品两部分,让云上客户更加深入了解云网络,用好云网络。 2)跨区或者跨地域云基础设施容灾能力。 通常云服务厂家数据中心建设均有容灾能力,这里建议还是选择大厂。 3)IDC到云上网络高可用建设。 混合云容灾模式,这里考虑到IDC和云上线路容灾情况,一般建议两条专线接入不同的POP点来进行容灾建设;同时建立VPN或者GRE公网逃生通道来紧急恢复业务。 image.png 3.2 混合云网络容灾 混合云网络容灾分为两个部分: 1)idc和云机房之间线路容灾,主要线路分为专线和VPN。
2.3 数据库备份服务数据库备份服务拥有一套完整的数据备份和数据恢复解决方案,具备实时增量备份以及快速的数据恢复能力,同时具备异地容灾能力。
为了让企业能更好用好云平台的数据安全能力,本文重点云平台数据备份冷备能力,以腾讯云为例,主要从以下两个维度介绍:同城数据冷备能解决企业什么问题,达到怎么样业务容灾效果? 同城冷备份方案同城数据冷备方案主要依赖于云平台能力备份能力,对现有业务架构没有任何改造,方案架构如下:图片该方案核心要点说明:数据备份:云侧数据库mysql和redis在控制台设置数据备份参数,数据备份存储在COS,具备地域级别容灾 指标详细说明容灾能力具备同地域(不同可用区)数据备份能力,不具备不同地域的能力。 3.容灾演练能力建设,增加平时运维成本以及自动化工具开发功能。
1.传统容灾中心的架构 容灾半径是衡量容灾方案所能承受的灾难影响范围的指标。不同灾难的影响范围是不同的,而距离也会影响到容灾技术的选择。 2.容灾级别与能力 容灾系统按保护级别可分为:数据级容灾、应用级容灾、业务级容灾。 按需付费 云容灾可以采用云基础设施或者DRaaS模式,允许用户自由选定重要的系统和数据进行容灾。所以无论是业务接管还是演练,客户只需为实际所使用的资源付费,大大减少了资源的浪费,且提升了效率。 4.云容灾级别和能力 参考传统容灾的级别划分,由于云容灾的基础设施采用了云平台,在云容灾的级别划分上,应用级和业务级的区别已经不大了,因此在这里将云容灾的容灾级别分为:数据级容灾、业务级容灾。 它利用云原生服务,帮助用户实现基于云平台的备份与容灾,利用底层不同的数据技术,及云原生编排能力,实现一键式容灾演练。
灾难恢复(Disaster Recovery)阶段定位:灾难发生后的系统重建与容灾关系:现代容灾系统集成恢复功能二、容灾与备份的协同关系1. 功能互补性2. 典型故障应对案例1:数据库误删操作容灾系统同步删除→需从备份恢复案例2:机房级火灾容灾系统接管业务→备份用于数据追溯三、企业灾备体系规划策略1. 风险评估矩阵2. 典型建设路径初级阶段:本地备份+双机热备(中科热备HA方案)进阶阶段:同城双活+异地备份成熟阶段:多云容灾+区块链存证四、灾备技术体系详解1. 医疗行业应用三甲医院HIS系统:容灾中心部署中科热备CDP技术实现诊疗业务零中断切换3. 建议企业根据业务特性选择"备份+容灾+恢复"的三维防护策略,定期开展灾备演练,真正实现业务连续性保障。
容灾系统在企业中给与数据安全系数相当高的保障,但是容灾系统倒是是什么,他们是什么意思?恐怕连正在使用容灾备份的网络管理人员都不能解释。本文用最浅显的语言给大家解释容灾备份到底是什么。 容灾不可少 那么建设了备份系统,是否就不需要容灾备份系统? 容灾不能替换备份 容灾系统会完整地把生产系统的任何变化复制到容灾端去,包括不想让它复制的工作,比如不小心把计费系统内的用户信息表删除了,同时容灾端的 用户信息表也会被完整地删除。 如果是同步容灾,那容灾端同时就删除了;如果是异步容灾,那容灾端在数据异步复制的间隔内就会被删除。这时就需要从备份系统 中取出最新备份,来恢复被错误删除的信息。 备份系统+异地容灾系统 这是一个较为理想化的容灾系统一体化解决方案,能够在很大程度上避免各种可能的错误。 容灾恢复等级 ? 灾难恢复层次 ? 灾备技术层次 ? 1.1 磁盘阵列灾备技术 ?
综上所述,本文从云平台视角出发阐述应用层业务容灾建设,主要分为方案设计考虑纬度、复杂度以及云上客户案例三个方面。 1.应用容灾概述 1.1 应用部署 应用是否满足跨地域/可用区部署? 应用层调用链是否能接受跨区延时,如果业务无法接受跨区,该业务做容灾只能set化部署,这里需要强大中间件团队开发数据同步系统。 应用层调用链能接受跨区延时,一般以试点业务先观察,小步迭代方式逐步构建容灾能力。 容灾切换强依赖于调度系统以及配置系统稳定性。这里稳定性主要包括系统容灾能力和性能;遇到大规模故障,大量信息配置变更请求调度系统和配置系统要能扛住洪峰,是保障这个容灾方案的根基。 2.应用容灾复杂度 计算应用层容灾,主要考虑以下两个方面: 哪些节点执行任务。 这里要区分清楚哪些节点执行核心业务,这里会引入不同的复杂度。
本文结合云平台公网能力,从网络平台角度来分析容灾建设可行性。 2.公网出口容灾方案 2.1 IDC和云平台出口互为主备 正常情况下,IDC和云平台公网出口流量是烟囱式,互不交叉;当IDC公网出口异常,流量切换到云平台,同样云平台公网出口异常,流量切换到IDC。 整体公网出口容灾方案如下: image.png 2.1.1 云平台切换方案。 正常情况下,业务流量通过NAT访问公网,如上路绿色线条标识。 2.1.2 IDC容灾切换方案 正常情况下,IDC业务流量通过NAT访问公网,如上路绿色线条标识。 IDC公网出口容灾方案 (推荐) 1.方案简单,更多依赖云平台能力 2.方案落地快捷。 3.人力成本低,不需要自建系统。 4.维护成本低,不需要后续维护系统稳定性。
共享存储或数据库主从模式 单元化架构(按用户/业务分片) 成本 专线成本较高,但存储配置可能更简单 异步复制带宽成本相对较低,但架构复杂度和改造成本高 主要优势 高可用、数据零丢失(RPO=0)、故障切换迅速 城市级容灾 2、容灾等级要求:同城双活可应对机房级故障。若需防范城市级灾难(如地震、大规模停电),则需异地双活。 3、成本预算:同城双活专线成本较高,但架构相对简单。
容我细细细细分析。 原因就是接口挂了,拿不到数据了。那把数据储存起来就可以解决问题。 思考 存哪里? 第一时间反应浏览器本地存储,想起了四兄弟。 接口容灾我们也是刚弄不久,有许多细节与不足,欢迎沟通交流。 接口容灾本意是预防发生接口服务挂了的场景,我们不会很被动。原来是P0的故障,能被它降低为 P2、P3,甚至在某些场景下都不会有用户反馈。
Tencent Cloud Health Dashborad ),作为腾讯云官方的产品可用信息对外窗口,需要保障在极端的故障情形下,还能及时且正确地对外呈现关键信息,这要求在架构设计和部署上做到多地域级别的容灾效果 上篇 腾讯云Status Page(健康看板)容灾设计与混沌演练实践——上篇 我们讨论架构设计和部署,接下来的内容是关于相应故障演练验证的实践 故障注入主要通过腾讯云混沌演练平台实现,腾讯云有对外服务的版本 平台自动处理示意图 数据层故障演练 通过腾讯云混沌演练平台进行注入: 代码层面实现DB异常返回约定的50x异常码,ECDN节点接收到异常码后做备源重试: 演练总结 上述针对性的对接入层,逻辑层,数据层故障演练验证的结果都达到了预期 系列文章 腾讯云Status Page(健康看板)简介 腾讯云Status Page(健康看板)前端部署实践 腾讯云Status Page(健康看板)服务端渲染实践 腾讯云Status Page(健康看板)容灾设计与混沌演练实践 ——上篇 腾讯云Status Page(健康看板)容灾设计与混沌演练实践——下篇
为了达到目标,我们除实施针对性的架构设计和部署外,还对各类故障场景做了故障演练验证。 接入腾讯云产品ECDN,能同时获得分布式的容灾访问能力和加速能力 接入层容灾 借助腾讯云CDN的能力 当遇到站点以下两种异常: 后端返回异常的http状态码 接入VIP连接异常 ECDN会重试请求备源 数据层容灾 前面提到,腾讯云CDN具备当后端返回异常的http状态码时ECDN会重试请求备源的能力。 系列文章 腾讯云Status Page(健康看板)简介 腾讯云Status Page(健康看板)前端部署实践 腾讯云Status Page(健康看板)服务端渲染实践 腾讯云Status Page(健康看板)容灾设计与混沌演练实践 ——上篇 腾讯云Status Page(健康看板)容灾设计与混沌演练实践——下篇