首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏腾讯云中间件专家服务

    演练-故障切换

    设计需要进行故障切换的场景 设计过程当中需要考虑的故障切换的场景有很多,数据中心内部的高可用切换不在本次讨论范围之内,我们讨论的是恢复过程中的关键跨数据中心级的故障切换场景,从网络层到存储层都会涉及到 其实从容的角度来看,相互独立的小集群LB资源池和跨数据中心的大集群LB在切换功能都是合格的,APP节点故障无论是在大集群和小集群架构下,都可以合理切换。 4.2 HA数据库服务模式 所谓 HA数据库服务模式是指通过操作系统HA软件结合数据库服务实现的架构,架构设计之初是为了实现各类应用服务的本地服务器高可用,但双活技术兴起之后,也常常被用来作为近距离 (百公里内范围)双活的数据库服务架构 。 存储层的故障切换策略 5.1 存储网关服务模式 所谓存储网关模式,我们在《企业选型指南- 2 :企业的数据复制技术》当中介绍过, 就是在物理存储层之上增加一层网关技术,用以形成存储资源透明抽象层

    3.4K31发布于 2021-09-16
  • 来自专栏腾讯云智能顾问

    混合云混沌演练

    但是基于混合云部署的业务系统往往复杂性高,维护成本大,因此也为业务稳定性带来了不小的挑战,为保证业务的稳定性,进行有规律的演练是一种科学的方式。 但是在复杂的混合云环境中进行演练本身就比较复杂,涉及的云资源之多,进行混合云演练的门槛高。 腾讯云混沌演练平台旨在协助用户便捷地进行云上稳定性治理,平台结合行业经验,形成了混合云演练行业经验,用户可以基于该演练经验一键创建混沌演练或在此模版基础上添加新的故障演练场景,灵活便捷! 混沌演练对混合云的价值体现腾讯云混沌提供了对云上资源类型CLB、CVM、专线、数据库等对象类型的故障,通过混沌演练可以了解云服务不可用时的业务表现,检验故障告警的有效性,同时也可以验证脱离公有云后自身私有云架构的表现 如何快速进行混合云混沌演练腾讯云混沌演练工程结合行业经验,生成了一个混合云演练经验模板,可通过该模板快速生成演练:前往腾讯云混沌演练平台【概览】选择「混合云演练」行业经验模版。

    50210编辑于 2024-04-17
  • 来自专栏腾讯云中间件专家服务

    业务级切换演练实践

    业务是所有中最复杂的一种场景,涉及到业务应用、中间件、数据库及底层的计算、存储、网络等资源。就云上业务来讲整个覆盖到IaaS、PaaS、SaaS层。 在方案确认并且实施落地之后,就需要进行切换演练工作。下面主要介绍下切换演练的流程及具体操作细节。 image.png 一、确保备区所有相关的应用级中间件组件部署完毕。 先假设整个切换场景在广州四区及六区进行,四区是主区、六区是备区。在六区搭建应用部署环境并先不启动业务。 三、执行整个业务的切换步骤 1、应用入口的流量切换。在切换平台上,将系统客户端的流量指向六区。 注意事项: ① 需要确保四区主库设置为只读状态,确保数据一致性。 ② 注意数据是否同步正常。

    3K30编辑于 2021-12-20
  • 来自专栏腾讯云智能顾问

    【云顾问-混沌演练演练Game Day最佳实践——moomoo

    检验关键服务的跨可用区能力,如架构无单点,具备健康检查、负载均衡等; 2. 检验基础监控、业务指标监控的覆盖是否全面、告警是否及时等; 3. 接入层负载均衡能力 2. 专线网络能力 3. 逻辑层虚拟机、容器集群能力 4. 数据层CDB/CRS/TDSQL能力 上述故障演练均基于腾讯云混沌演练平台(CFG)完成,业务团队在混沌演练平台上完成了实例选取、演练场景动作的编排、可视化故障注入、演练报告等全流程操作。 五、演练总结 此次moomo和腾讯云混沌演练平台的联合演练逐项验证了业务云服务能力,系统的整体可用性和可靠性整体符合要求。 通过演练,客户更好地了解了服务的能力和故障时系统切换流程,提高了对自身服务的信心。 六、混沌演练平台产品介绍 本次演练由客户在腾讯云混沌演练平台上操作完成,更凸显出了平台自动化的重要性。

    1.6K152编辑于 2024-03-13
  • 来自专栏腾讯云混沌工程团队

    【云顾问-混沌】 跨 AZ 混沌演练

    进行跨 AZ(可用区)和混沌演练变得尤为重要。 什么是跨 AZ 以及混沌演练? 跨 AZ 它是指在一个云服务商的多个可用区之间进行业务和数据备份、恢复和迁移的能力。 跨 AZ 混沌演练的价值 跨 AZ 和混沌演练相结合,可以帮助企业和组织实现以下目标: 提高业务可用性:确保业务在某个可用区发生故障时能够迅速迁移到其他可用区,保证业务的高可用性和持续性。 提高应急响应能力:通过定期进行跨 AZ 和混沌演练,提高企业和组织的应急响应能力,确保在发生问题时能够迅速采取恢复措施。 如何快速进行跨 AZ 混沌演练? 借助于腾讯云混沌演练平台,可方便快捷地进行跨 AZ 混沌演练时,可以遵循以下步骤: 前往腾讯云混沌演练平台【概览】选择「跨可用区演练」行业经验模版。

    73810编辑于 2024-03-15
  • 来自专栏开元说说

    系列(六)——数据存储建设

    数据存储建设主要从数据可靠性和业务稳定性两个维度阐述。这两者有哪些区别呢?

    4.4K73发布于 2021-11-18
  • 来自专栏腾讯云中间件专家服务

    客户案例—zookeeper迁移方案

    在至少有一个Leader存在的前提下,进行Zookeeper的在线增量、在线减量、在线迁移 在全过程中ZooKeeper不停止服务

    2.2K51发布于 2021-07-26
  • 来自专栏云容灾云灾备

    什么是云?与传统备有何不同?

    维护复杂度高:传统系统的管理、监控、演练和切换操作需要大量专业人员投入。 ,测试成本高可在云端进行无影响演练三、云的核心优势1. 例如,企业可以通过 API 触发云侧资源区编排、执行演练、监控业务健康状况,并在灾难发生时触发自动化恢复流程,提升备响应效率。4. 自动化演练(Automated Disaster Recovery Testing)传统演练通常需要人工干预,操作复杂且成本高昂,而云可支持自动化演练,不影响生产业务。 效果对比对比项传统方案云方案成本设备购置+维护成本高按需付费,减少闲置资源扩展能力资源固定,扩展周期长动态扩展,按需分配恢复时间4-6小时30分钟以内演练难度影响生产环境,难度大云端模拟演练,不影响生产最终

    40310编辑于 2025-08-06
  • 来自专栏开元说说

    系列(三)——云网络建设

    IDC时代,业务对网络参与较少,主要依赖数据中心网络建设程度;当到了云的时代,云服务商将底层网络能力产品化后,云上客户更多参与网络建设,提升业务稳定性。 本文从云网络概述,云网络复杂度以及典型案例来介绍云网络建设。 1.云网络概述 云网络概述主要分为云服务商基础设施网络架构和云产品两部分,让云上客户更加深入了解云网络,用好云网络。 2)跨区或者跨地域云基础设施能力。 通常云服务厂家数据中心建设均有能力,这里建议还是选择大厂。 3)IDC到云上网络高可用建设。 混合云模式,这里考虑到IDC和云上线路灾情况,一般建议两条专线接入不同的POP点来进行建设;同时建立VPN或者GRE公网逃生通道来紧急恢复业务。 image.png 3.2 混合云网络 混合云网络分为两个部分: 1)idc和云机房之间线路,主要线路分为专线和VPN。

    5.7K93发布于 2021-08-09
  • 来自专栏开元说说

    系列(九)——异地数据冷备建设

    2.3 数据库备份服务数据库备份服务拥有一套完整的数据备份和数据恢复解决方案,具备实时增量备份以及快速的数据恢复能力,同时具备异地能力。

    10.3K164编辑于 2022-09-19
  • 来自专栏开元说说

    系列(八)——同城数据冷备建设

    为了让企业能更好用好云平台的数据安全能力,本文重点云平台数据备份冷备能力,以腾讯云为例,主要从以下两个维度介绍:同城数据冷备能解决企业什么问题,达到怎么样业务效果? 同城冷备份方案同城数据冷备方案主要依赖于云平台能力备份能力,对现有业务架构没有任何改造,方案架构如下:图片该方案核心要点说明:数据备份:云侧数据库mysql和redis在控制台设置数据备份参数,数据备份存储在COS,具备地域级别 指标详细说明能力具备同地域(不同可用区)数据备份能力,不具备不同地域的能力。 3.演练能力建设,增加平时运维成本以及自动化工具开发功能。

    8.1K113编辑于 2022-09-15
  • 来自专栏云计算文章

    的架构分析和选择策略

    1.传统中心的架构 半径是衡量方案所能承受的灾难影响范围的指标。不同灾难的影响范围是不同的,而距离也会影响到技术的选择。 2.级别与能力 系统按保护级别可分为:数据级、应用级、业务级。 按需付费 云可以采用云基础设施或者DRaaS模式,允许用户自由选定重要的系统和数据进行。所以无论是业务接管还是演练,客户只需为实际所使用的资源付费,大大减少了资源的浪费,且提升了效率。 4.云级别和能力 参考传统的级别划分,由于云的基础设施采用了云平台,在云的级别划分上,应用级和业务级的区别已经不大了,因此在这里将云级别分为:数据级、业务级。 它利用云原生服务,帮助用户实现基于云平台的备份与,利用底层不同的数据技术,及云原生编排能力,实现一键式演练

    3.7K30编辑于 2022-04-29
  • 备知识总结:与备份区别、备技术、体系规划

    灾难恢复(Disaster Recovery)阶段定位:灾难发生后的系统重建与关系:现代系统集成恢复功能二、与备份的协同关系1. 功能互补性2. 典型故障应对案例1:数据库误删操作系统同步删除→需从备份恢复案例2:机房级火灾系统接管业务→备份用于数据追溯三、企业备体系规划策略1. 风险评估矩阵2. 典型建设路径初级阶段:本地备份+双机热备(中科热备HA方案)进阶阶段:同城双活+异地备份成熟阶段:多云+区块链存证四、备技术体系详解1. 医疗行业应用三甲医院HIS系统:中心部署中科热备CDP技术实现诊疗业务零中断切换3. 建议企业根据业务特性选择"备份++恢复"的三维防护策略,定期开展演练,真正实现业务连续性保障。

    54910编辑于 2025-09-16
  • 来自专栏民工哥技术之路

    备知识总结:与备份区别、备技术、体系规划

    系统在企业中给与数据安全系数相当高的保障,但是系统倒是是什么,他们是什么意思?恐怕连正在使用备份的网络管理人员都不能解释。本文用最浅显的语言给大家解释备份到底是什么。 不可少 那么建设了备份系统,是否就不需要备份系统? 不能替换备份 系统会完整地把生产系统的任何变化复制到端去,包括不想让它复制的工作,比如不小心把计费系统内的用户信息表删除了,同时端的 用户信息表也会被完整地删除。 如果是同步,那端同时就删除了;如果是异步,那端在数据异步复制的间隔内就会被删除。这时就需要从备份系统 中取出最新备份,来恢复被错误删除的信息。 备份系统+异地系统 这是一个较为理想化的系统一体化解决方案,能够在很大程度上避免各种可能的错误。 恢复等级 ? 灾难恢复层次 ? 备技术层次 ? 1.1 磁盘阵列备技术 ?

    13.2K21发布于 2021-01-12
  • 来自专栏开元说说

    系列(四)——业务应用层建设

    综上所述,本文从云平台视角出发阐述应用层业务建设,主要分为方案设计考虑纬度、复杂度以及云上客户案例三个方面。 1.应用概述 1.1 应用部署 应用是否满足跨地域/可用区部署? 应用层调用链是否能接受跨区延时,如果业务无法接受跨区,该业务做只能set化部署,这里需要强大中间件团队开发数据同步系统。 应用层调用链能接受跨区延时,一般以试点业务先观察,小步迭代方式逐步构建能力。 切换强依赖于调度系统以及配置系统稳定性。这里稳定性主要包括系统能力和性能;遇到大规模故障,大量信息配置变更请求调度系统和配置系统要能扛住洪峰,是保障这个方案的根基。 2.应用复杂度 计算应用层,主要考虑以下两个方面: 哪些节点执行任务。 这里要区分清楚哪些节点执行核心业务,这里会引入不同的复杂度。

    4.2K72发布于 2021-09-04
  • 来自专栏开元说说

    系列(七)——混合云公网出口建设

    本文结合云平台公网能力,从网络平台角度来分析建设可行性。 2.公网出口方案 2.1 IDC和云平台出口互为主备 正常情况下,IDC和云平台公网出口流量是烟囱式,互不交叉;当IDC公网出口异常,流量切换到云平台,同样云平台公网出口异常,流量切换到IDC。 整体公网出口方案如下: image.png 2.1.1 云平台切换方案。 正常情况下,业务流量通过NAT访问公网,如上路绿色线条标识。 2.1.2 IDC切换方案 正常情况下,IDC业务流量通过NAT访问公网,如上路绿色线条标识。 IDC公网出口方案 (推荐) 1.方案简单,更多依赖云平台能力 2.方案落地快捷。 3.人力成本低,不需要自建系统。 4.维护成本低,不需要后续维护系统稳定性。

    4K124编辑于 2021-12-29
  • 来自专栏数通

    同城和异地的区别,你知道多少?

    共享存储或数据库主从模式 单元化架构(按用户/业务分片) 成本 专线成本较高,但存储配置可能更简单 异步复制带宽成本相对较低,但架构复杂度和改造成本高 主要优势 高可用、数据零丢失(RPO=0)、故障切换迅速 城市级 2、等级要求:同城双活可应对机房级故障。若需防范城市级灾难(如地震、大规模停电),则需异地双活。 3、成本预算:同城双活专线成本较高,但架构相对简单。

    33610编辑于 2025-10-11
  • 来自专栏采云轩

    前端接口

    我细细细细分析。 原因就是接口挂了,拿不到数据了。那把数据储存起来就可以解决问题。 思考 存哪里? 第一时间反应浏览器本地存储,想起了四兄弟。 接口我们也是刚弄不久,有许多细节与不足,欢迎沟通交流。 接口本意是预防发生接口服务挂了的场景,我们不会很被动。原来是P0的故障,能被它降低为 P2、P3,甚至在某些场景下都不会有用户反馈。

    62310编辑于 2023-11-30
  • 来自专栏腾讯云智能顾问

    腾讯云Status Page(健康看板)设计与混沌演练实践——下篇

    Tencent Cloud Health Dashborad ),作为腾讯云官方的产品可用信息对外窗口,需要保障在极端的故障情形下,还能及时且正确地对外呈现关键信息,这要求在架构设计和部署上做到多地域级别的效果 上篇 腾讯云Status Page(健康看板)设计与混沌演练实践——上篇 我们讨论架构设计和部署,接下来的内容是关于相应故障演练验证的实践 故障注入主要通过腾讯云混沌演练平台实现,腾讯云有对外服务的版本 平台自动处理示意图 数据层故障演练 通过腾讯云混沌演练平台进行注入: 代码层面实现DB异常返回约定的50x异常码,ECDN节点接收到异常码后做备源重试: 演练总结 上述针对性的对接入层,逻辑层,数据层故障演练验证的结果都达到了预期 系列文章 腾讯云Status Page(健康看板)简介 腾讯云Status Page(健康看板)前端部署实践 腾讯云Status Page(健康看板)服务端渲染实践 腾讯云Status Page(健康看板)设计与混沌演练实践 ——上篇 腾讯云Status Page(健康看板)设计与混沌演练实践——下篇

    1.2K81编辑于 2024-03-11
  • 来自专栏腾讯云智能顾问

    腾讯云Status Page(健康看板)设计与混沌演练实践——上篇

    为了达到目标,我们除实施针对性的架构设计和部署外,还对各类故障场景做了故障演练验证。 接入腾讯云产品ECDN,能同时获得分布式的访问能力和加速能力 接入层 借助腾讯云CDN的能力 当遇到站点以下两种异常: 后端返回异常的http状态码 接入VIP连接异常 ECDN会重试请求备源 数据层 前面提到,腾讯云CDN具备当后端返回异常的http状态码时ECDN会重试请求备源的能力。 系列文章 腾讯云Status Page(健康看板)简介 腾讯云Status Page(健康看板)前端部署实践 腾讯云Status Page(健康看板)服务端渲染实践 腾讯云Status Page(健康看板)设计与混沌演练实践 ——上篇 腾讯云Status Page(健康看板)设计与混沌演练实践——下篇

    903101编辑于 2024-03-11
领券