如今是数据驱动时代,数据库作为企业的核心资产之一,其安全性和稳定性显得尤为重要。然而,面对复杂多变的业务场景和不断演变的技术挑战,如何把握现有数据库架构可承受故障的故障级别、发生故障后的高可用性方案是否有效,成为了许多数据库用户关注的焦点,也是腾讯云MySQL在服务众多重保用户时思考的问题。
腾讯云Status Page(Tencent Cloud Health Dashborad ),作为腾讯云官方的产品可用信息对外窗口,需要保障在极端的故障情形下,还能及时且正确地对外呈现关键信息,这要求在架构设计和部署上做到多地域级别的容灾效果。为了达到目标,我们除实施针对性的架构设计和部署外,还对各类故障场景做了故障演练验证。
客户A: 云上故障时有发生无法完全避免,当故障发生时如何快速看到故障情况? 客户B: 资源种类、数量比较多,如何统一获取故障、变更影响信息? 那么,腾讯云如何解决这些问题? 腾讯云作为全球领先的云服务提供商,深知用户对业务连续性和可用性的关注,并致力于为用户提供即时、透明的服务状态,以及故障和计划维护等重要信息,帮助用户始终保持对服务的有效掌控和管理,不断提高业务连续性、减少故障响应时间。 腾讯云对标 Gartner 标准和国内外业界最佳实践,于2023年04月10日和04月26日分别发布上线“腾讯云
2024.4.8号,腾讯云发生重大故障,控制台完全不可用,腾讯云是中国TOP公有云平台,在全网引起了极大的舆论。对腾讯云服务口碑造成了巨大的负面影响。
富途控股有限公司(“富途”)是一家领先的数字化金融科技公司,专注于为用户提供覆盖多个市场的全数字化金融服务,继而提升投资体验。2019年3月8日,富途(Nasdaq: FUTU)正式登陆美国纳斯达克交易所。富途通过自主研发的一站式数字化金融服务平台富途牛牛和moomoo,为用户提供市场数据、财经资讯、投资社区、投资知识等服务;并通过集团旗下持牌券商,向客户提供港股、美股、A股通、新加坡股及澳股的股票交易和清算,融资融券,及财富管理等服务。富途以用户为中心构建起连接用户、投资者、分析师、媒体、企业和机构的投资生态系统。通过旗下富途安逸(FUTU I&E)品牌,集团为企业客户提供一站式ESOP解决方案、首次公开募股(IPO)分销、投资者关系和公共关系(IR&PR)等企业及机构服务,已成为多家知名企业信赖的合作伙伴。
我以为是服务器出现故障,又是重启,又是求助,差点重装系统,在快八点的时候,自动好了。
在数据大爆发的时代背景下,云计算承载的业务规模呈现指数级增长,软件和硬件的结合成为刚需。未来,软硬件一体化技术会进一步发展,为用户提供更强壮的基础设施平台,提升云计算的性能、提高资源利用率,最终为用户提供稳定、更具性价比的服务。
导语 | 腾讯云网络作为云的基础设施,其质量和稳定性直接影响了云的运营质量和用户口碑。同时客户对基础设施依赖度高,故障容忍度低,云网络产品迭代更新快,决定了我们需要对云网络质量有更高的要求。本文是腾讯云专家工程师陈政产老师在云+社区技术沙龙深圳站的分享整理,为大家详细介绍腾讯云网络运维平台的建设。
当检测到物理线路1发生故障,系统自动将流量切换至物理线路2,保证业务正常运行。故障修复后,流量自动切回。
11月13日,中国信息通信研究院组织的全国5G网络运行安全能力提升专项行动工作交流会在南京召开。其中在广东省通信管理局的指导推荐下,腾讯专有云《基于AZ内与跨AZ故障演练的专有云服务风险隐患排查体系》获得《2023年信息通信领域安全生产优秀成果》一等奖,此为广东省唯一一个通信领域安全生产专项一等奖。
欢乐互娱(上海)科技股份有限公司(以下简称“欢乐互娱”),是一家全球游戏研发和发行公司,聚焦于MMORPG和MMOACT两大品类,成功出品了众多知名游戏如《街机三国》、《龙之谷》和《英雄杀》等。2023年4月,欢乐互娱重磅新游大作《RO仙境传说》计划在东南亚发行,该项目开服规模大、影响用户范围广,做好游戏上线前的容灾准备以保障上线后的稳定性至关重要。
中国信通院于2022年11月启动案例征集,活动旨在通过筛选行业最佳实践案例,为众多企业提供参考和指引,进而推动我国云服务稳定安全运行水平提升,保障各个行业数字化转型和稳定运营。作为首届活动,标志性、引领性意义重大。
信息网络的应用逐渐渗透社会发展的各个领域,网络业务量的迅速膨胀给数据传输能力和大吞吐量的交叉能力提出了更高要求。11月22日,腾讯云正式发布Supermind智能网络产品。相比此前网络产品的特点,Supermind智能网络将拥有高性能、全球互联、智能化等三大特点。
导语 近几年,大型公有云故障引发的生产业务事故案例时有发生。由于很多开发者默认大型公有云的服务是一直可用的,在开发时没有针对公有云服务进行容错设计,在公有云故障时,就出现了业务的异常。可见,由于大型公有云实际上已经成为了全社会共同拥有的IT基础设施,其业务的高可用也已经成为了企业社会责任的一部分。腾讯云是如何通过完备的高可用设计,来保证云服务的业务连续性和数据持久性,从而承担大厂应有的社会责任的呢? 这篇来自腾讯专有云的架构师方天戟的万字长文为您揭开腾讯专有云高可用设计的内幕。 一. IT 业务高可用的
2023年12月27日,由中国信息通信研究院、中国通信标准化协会主办的2023系统稳定性与精益软件工程大会在北京举行。腾讯专有云《基于AZ内故障演练的专有云服务风险隐患排查》荣获第二届云系统稳定安全运行优秀案例-混沌工程实践优秀案例,《专有云机房断电恢复应急处置实践案例》荣获云系统运行故障应急处理实践优秀案例。
7月27日,在第三届OCP China Day大会上,腾讯云联合浪潮发布《数据中心服务器智能故障诊断TIFDS(Tencent & Inspur Fault Diagnosis System)系统技术白皮书》,其中腾讯云与浪潮联合研发的TIFDS系统架构,为大规模数据中心提升服务器运维效率,保障数据中心稳定运行提供重要参考。
前面几篇文章,从两个开源程序chaos-mesh、chaosblade入手,分析混沌工程的原理;然后讲混沌工程实施的完整过程及混沌原则梳理,本文主要是记录之前的知识,用一个例子说明混沌工程是怎么设计的。
本文介绍了腾讯云网络产品的智能化演进,主要从四个方面进行介绍:自研路由器引入AI,打造智能网络;基于意图的网络;基于策略的网络;AI在网络运维领域的应用;以及网络大脑的构建。
5 月 18 日,腾讯云举办了 Techo Day 腾讯技术开放日,以「开箱吧!腾讯云」为栏目,对外发布和升级了腾讯自研的一系列云原生产品和工具。其中,腾讯云开发者产品中心总经理刘毅围绕“开发敏捷高效”这一话题,分享了关于“云原生应用开发与运维新范式”的主题演讲。本次演讲将为大家分享,腾讯云是如何通过云上开发运维协作能力,支持多职能团队流畅协作,助力企业加速数字化敏捷转型,提升云原生架构的运维效率,受益云原生。
阅文集团是一家以数字阅读为基础,IP培育与开发为核心的综合性文化产业集团。集团汇聚了强大的创作者阵营、丰富的作品储备,覆盖200多种内容品类,触达数亿用户,已成功输出《斗罗大陆》《斗破苍穹》《鬼吹灯》《盗墓笔记》《琅琊榜》《庆余年》等网文IP改编的动漫、影视、游戏等多业态产品。
转眼又到春节,又到了亲朋好友大团圆的时刻。对程序猿和攻城狮来说,能否安安稳稳的过年就主要取决于网络是否安稳了,谁都不想在合家团圆吃年夜饭的时候因为网络故障加班。不过,过去这一年各种网络却是故障不断:
网络的能力直接决定着数据中心的算力,尤其是随着AIGC时代的到来,人们对算力的需求越来越大,网络的升级改造也成为每个数据中心关注的重点。
“使用腾讯云 Elasticsearch Service(ES) 服务,微盟能够快速构建日志分析、应用搜索、APM 追踪、异常监控、BI 分析等各类业务,提高云端商业服务的竞争力。” ——微盟集团运维部资深运维工程师 体验,已经成为一种新的消费时尚。Z 世代年轻人购物焦点不再只是好和省,而是融合了信息度、愉悦感的全新体验。微盟,中国企业云端商业及营销解决方案的领军者,企业精准营销服务提供商,正通过科技创新驱动商业革新,帮助300万+商家高效链接消费者并实现最好的体验经营。 一、深耕触点场景,链接 B 端和
https://mp.weixin.qq.com/s/2e2ovuwDrmwlu-vW0cKqcA
4月8日15点23分,腾讯云团队收到告警信息,云API服务处于异常状态;随即在腾讯云工单、售后服务群以及微博等渠道开始大量出现腾讯云控制台登录不上的客户反馈。
在2023年度科技媒体IT168发布的技术卓越奖评选中,腾讯云分布式云荣获「2023年度最佳创新解决方案奖」,同时分布式云解决方案旗下产品矩阵中的腾讯专有云PaaS平台(TCS)-混沌演练产品,荣获「2023年度最佳创新产品奖」
本篇文章整理自腾讯互娱高级工程师吴召军在 PingCAP Infra Meetup 上的演讲实录,欢迎点击【阅读原文】查看视频回放,后台回复 “135” 即可获取本期 PPT 链接。
随着数字经济转型逐步深化,众多企业正迈入全面上云阶段。然而,云计算架构所带来的复杂性也让稳定性面临极大挑战。伴随着云计算规模的快速增长,云服务作为社会基础设施的重要性也日益提升。腾讯云深知质量乃生命线,稳定性至关重要且不容忽视。
腾讯互娱运营活动每天的访问人次超过 100 亿次,高峰的 QPS 超过 100 万,每天活动代码发布更新超过 500 次,数据量也超过 200 TB。面对海量的用户请求和快捷的版本发布迭代速度,如何才能又快又稳地保障服务的运营?腾讯互娱活动运营团队给出的解决方案是 DevOps 和云原生。
前沿数控是一家从微信公众号起家的创业公司,定位于数控、模具、机械行业,后转型为一站式平台,开发了网站、H5、小程序产品等。
容灾体系能否第一时间恢复数据成为容灾体系是否合格的核心指标,对于业务连续性来说也至关重要。腾讯云数据库灾备解决方案的最佳复原时间目标(RTO)也降低到秒级,彻底解决单机房网络、光缆挖断等不可控故障给业务带来的长时间停服不可用。
为了给客户提供更优质、更可靠的服务,金蝶业务团队从2022年开始,就已经在腾讯云售后专家的协助下,陆续对业务系统完成双活改造。改造完成后,业务团队通过腾讯云混沌演练平台进行故障注入,以检验业务系统的容灾效果,从而提升业务系统韧性。本次演练主要针对金蝶小微业务线(精斗云&KIS云),涉及10大业务故障场景,是财务、新零售、电商等领域行业提高系统可用性的一次最佳实践。
4月15日,在浪潮举办的IPF智算·向新大会上,腾讯云表示,为面对政企数字化升级加速带来的算力挑战,腾讯云与浪潮建立全新合作模式,去应对新的产业发展变局。
非自上而下的客户界面联合项目,极易受客户的工作安排影响,导致实际时间窗口很小。就需要我们的混沌方案,在充分覆盖目标系统的基础上,可以把最重要的事项优先执行以取得客户信任。
导读|随着疫情防控模式的迭代,健康码访问DAU逐渐趋于下跌,意味着健康码将逐步完成历史使命,见证着疫情的结束。本文特邀腾讯研发工程师李雄政将从技术架构、可观测体系、运营保障体系等运维体系多方面,总结回顾健康码业务运营过程中的保障技术手段。 业务背景 疫情三年,奥密克戎已是强弩之末,疫情终将过去。历经数个阶段的迭代,腾讯健康码产品服务于十余个省份的居民,数亿用户、数百亿次亮码。有效助力保障公共卫生安全。全国健康码共累计PV2k多亿,亮码1k多亿,最大省份的健康码用户量超过1亿,DAU过千万。 随着疫情
Salesforce 是领先的云软件应用程序,全球约15万组织数百万员工使用。提供客户关系管理全套服务,包括联系人管理、产品目录、订单管理、机会管理和销售管理等。无需额外投入维护、储存和管理记录,所有数据存储在上面。
随着云计算的广泛普及和云原生实践,越来越多的公司开始将目光投向云上的稳定性治理。混沌工程的概念最早来自Netflix,并且在NF取得成功,证明了混沌工程在云计算中扮演关键角色,通过有计划地引入故障和不稳定性,确保系统的健壮性和可靠性,使组织能够充分利用云计算的优势,并实现高质量的应用交付。
近日,腾讯专有云TCE和TCS 首批通过了中国信息通信研究院(以下简称信通院)《专有云容灾技术能力要求》,从基础设施能力、架构容灾能力、平台容灾能力三大类13子项88细项100%满足监管机构对专有云容灾的技术能力要求。TCE和TCS的容灾能力达到业界领先水平。
服务器 CPU 负载的异常升高往往会导致服务响应时长增加、任务堆积甚至系统假死、服务中断等问题。因此,稳定和高性能的服务器对于业务的顺利运行至关重要。然而,在日常的服务运维过程中,CPU 高负载却是非常常见的一种故障场景。引起 CPU 高负载的原因也多种多样,以下列举一些常见的原因:
在2023年11月12日,刚经过双11的购物节大压力的阿里,却从17:44起发生了服务宕机,旗下的淘宝、闲鱼、饿了么等服务出现服务中断,甚至让高校学生宿舍的洗衣机都“宕机”了。从阿里云健康看板公布的数据可以看出,阿里云的几乎所有的云产品等服务都受到了影响,影响了全球范围内多个地域。阿里云这次故障,放在整个云厂商界都是炸裂般的存在。阿里云历时3个多小时,服务才陆续恢复。
(举个例子,这里超过六成手游用户有付费意愿,每用户平均收入高达270美元,世界第一)
在云时代,大部分中小型企业都奔跑在云上或是服务器托管公司。任何规模的数据中心服务中断都会让你的企业踩雷。据统计,80%的数据中心服务中断都是由服务器硬件造成的。
近日,腾讯云客户北京清博数控科技有限公司所属“前沿数控”平台一块操作系统云盘发生故障,导致该客户的文件系统元数据损坏,我们对客户业务所受影响表示诚挚歉意。同时,我们也对此次故障过程进行了深入的技术复盘。
随着企业对数据处理和存储需求的不断增长,Redis作为一款高性能的内存数据结构存储系统,已成为业界的首选。然而,在Redis中的使用中,会面对一些潜在的故障风险,其中主节点故障,发生主从切换最为常见。
4月17日下午,以《大规模应用下的计算技术实践》为主题的2021 腾讯云Techo Hub技术巡回活动首站在深圳湾科技生态园盛大开启。
领取专属 10元无门槛券
手把手带您无忧上云