微服务优势之一是可缩小故障影响范围,局限在某个服务中。那一个服务出现故障该如何处理?
前言: 在互联网行业高速发展的浪潮中,腾讯数据中心先后经历了租用、自建、合建三个重要阶段。数十个腾讯IDC,几百个CDN节点遍布全球。腾讯依托运营商强大的骨干网络和IDC分布,为全球亿万互联网用户提供丰富、优质的互联网服务。 腾讯IDC规模的不断扩大给海量服务器运营带来了挑战,腾讯IDC与运营商之间的关系也不断地演进和深化。历经多年的实践探索,终于开创性地走出了腾讯IDC的联合运营之路。 为什么提出联合运营: 腾讯发展迅猛的互联网业务促使其服务器数量爆发式增长,服务器规模从10W到20W仅仅用了1年时间
IDC(互联网数据中心),是云计算的主要载体和最主要支点,IDC布局是否合理,规模化程度大小,不仅影响云计算是否能够持续发展,也影响着使用云计算服务的用户体验,更决定着云计算的成本是否合理。 传统的IDC布局,以网络为中心,造成IDC散、碎、小,阻碍大云时代的发展;采用IDC群的云基地模式,承载的服务器规模宏大,资源效率高,总体成本低,可以更高效的支撑云计算的发展与集约化。 1、当前IDC布局存在的主要问题 传统的IDC布局多靠近基础电信运营商的网络核心或骨干节点,像腾讯、百度、阿里等的IDC绝大多数都部
2021年10月9日凌晨,富途证券被爆因网络异常出现系列故障,包括资产清零、无法交易等。 富途证券创始人兼董事长李华是腾讯第18号员工。于2000年加入腾讯,在腾讯的8年时间里,李华在市场、运维,产品、管理等岗位都呆过。李华发明了23项国内和国际专利,同时也是QQ产品重要参与者和腾讯视频创始人之一,领导过腾讯视频产品设计和开发。 10月11日,李华以“叶子哥”的身份发布《关于2021.10.9凌晨交易中断事故的道歉和回复》文章,以下为全文。 关于2021.10.9凌晨交易中断事故的道歉和回复 10月
1.背景 目前部分KV存储不支持跨IDC部署,所以如果有机房故障的话,就会影响KV存储的可用性。本文提供了一种通过KV存储代理层来实现跨IDC容灾部署的方案。 2.实现原理 考虑到多地写多地读实现起来比较复杂,而且一旦数据乱了,恢复数据也比较复杂。所以本方案采用的是单写多读的方式,即主IDC支持读写操作, 备IDC对外只读。主IDC的存储代理通过写流水文件到磁盘,通过Notify程序将流水传输到备IDC对应的存储代理Redo服务重做流水。Notify程序做流水文件分发, 可以分发给本地IDC,
Pony说过,腾讯把半条命交给了合作伙伴。这句话,同样用于形容腾讯和支撑腾讯业务的IDC运营商。的确,稳定可靠的IDC,是腾讯业务的半条生命线. 云对IDC的压力 近几年,随着云服务商的兴起,及云计算的日趋成熟,集中式云计算已慢慢成为主流的趋势,越来越多的中小型公司不再自行购买服务器,直接购买云服务来完成自身的IT支撑业务。 大型互联网公司的IDC,从托管自身业务起家,支撑其海量的互联网业务及产品,服务于亿万网民。慢慢的,为其业务支撑的建设的IDC及网络、积累的技术和经验,已变成了IDC业界难得的资源。
之前都是单主的主从复制架构,主从复制有个明显缺点:只有一个主节点,而所有写都必须通过它1。万一和主节点之间的网络中断而导致无法连接到主节点,主从复制方案就影响所有DB写入操作。
不管是什么行业都在广泛使用着idc主机机房,idc机房也就是一种超大型机房,它利用互联网的通信技术,建立起标准化的数据中心环境,能够给各种单位、各种公司提供全方位的服务,但是由于很多人并不了解idc机房,所以下面为大家具体地介绍一下idc机房的特点是什么,以及idc机房和自建机房有什么不同。
不管是什么行业都在广泛使用着idc机房,idc机房也就是一种超大型机房,它利用互联网的通信技术,建立起标准化的数据中心环境,能够给各种单位、各种公司提供全方位的服务,但是由于很多人并不了解idc机房,所以下面为大家具体地介绍一下idc机房的特点是什么,以及idc机房和自建机房有什么不同。
越来越多的企业在数字化转型和上云进程中选择混合云的形态(云+自建 IDC 或云+其他厂商云)来进行容灾建设,一方面不会过度依赖单一云厂商,另一方面还能充分利用已有的线下 IDC 资源。
各位鹅厂的粉丝们,尔们好,今天首次与大家见面,请多多关照哦!在俺们鹅厂网事这里,大家将从鹅厂基础架构网络技术、架构方向、运营案例、研发经验、业务百态等多维度,看到我们很多干货经验、参与到我们诸多前瞻风暴、感受到我们超大正能量,期待大家的关注和支持! 创刊号精选,耗费了小鹅几个月的时间,突然一天惊醒发现,云计算产业在发生很根本的一个变化,将对基础网络产生巨大的挑战和机遇,你看,fackbook把数据中心建到美帝中北部北卡去了、亚马逊也来中国宁夏卖云资源了、电联移三大运营商也投资数百亿到内蒙古、贵州等地建立超大
收到客户反馈:云上CVM通过专线访问云下IDC-A Redis数据库时存在偶发性延时超过1S现象,需要配合客户定位处理。
当检测到物理线路1发生故障,系统自动将流量切换至物理线路2,保证业务正常运行。故障修复后,流量自动切回。
4月20日,腾讯数据中心在广东清远组织“融合开放,数以智用”主题闭门会,邀请全国21家省市运营商和14家IDC合作伙伴共同参会。大会深度介绍腾讯数据中心运营技术和体系建设的最新探索和实践,郑重倡议加快推进数据中心联合运营升级——联合行业IDC先锋共同探索运营保障体系和技术最佳实践,共同打造可靠、低成本、智能化、业界领先的数据中心基础设施。
本文作者烧鱼、Shirley博,来自携程Cloud Container团队,目前主要从事Service Mesh在携程的落地,负责控制面的性能优化及可用性建设,以及推进各类基础设施服务的云原生化。
导语| 企业A是一家互联网公司,当前在云上计算资源已经接近10W核,华东地域专线流量24G+,资源部署以华东为主、华北、华南、西南等可用区为辅。该企业属于典型的混合云架构,本文主要分享企业A如何通过云联网架构优化实现带宽利用率提升50%?
美团外卖已经发展了五年,即时物流探索也经历了3年多的时间,业务从零孵化到初具规模,在整个过程中积累了一些分布式高并发系统的建设经验。最主要的收获包括两点:
Square是面向美国,加拿大,英国,日本,澳大利亚提供金融服务的公司。现在所有的交易相关信息都存储在MySQL中。这种电商类的网站,整体规模也有一些值得学习的地方。 下面一起看看Square在MySQL方面的经验。
Square是面向美国,加拿大,英国,日本,澳大利亚提供金融服务的公司。现在所有的交易相关信息存储在MySQL中。这种电商类的网站,整体规模及也有一些值得学习的地方。 下面一起看看Square在MySQL方面的经验。
腾讯是中国最大的互联网综合服务提供商之一,面向互联网海量用户提供优质的在线生活服务。而腾讯分布全国的IDC、服务器网络基础设施及运营人员是腾讯得以面向用户提供优质互联服务的坚实基础。面对指数级增长的IT设备数、工作人员数及日益复杂的IDC现场工作环境,IDC运营安全的重要性逐渐凸显。 一、IDC运营安全管理目标 根据安全管理金字塔理论(海因里析法则)的概率统计,每发生1起死亡事故,会发生30起损工事故、300件医疗和限工事故、3000件未遂事故和急救箱事件、30000件不安全行为和导致不安全条件数。从此可
为帮助开发者更好地了解和学习分布式数据库技术,2020年3月,腾讯云数据库、云加社区联合腾讯TEG数据库工作组特推出为期3个月的国产数据库专题线上技术沙龙《你想了解的国产数据库秘密,都在这!》,邀请数十位鹅厂资深数据库专家每周二和周四晚上在线深入解读TDSQL、CynosDB/CDB、TBase三款鹅厂自研数据库的核心架构、技术实现原理和最佳实践等。三月为TDSQL专题月,本文将带来直播回顾第二篇《破解分布式数据库的高可用难题:TDSQL高可用方案实现》。
本文根据美团资深技术专家宋斌在ArchSummit架构师峰会上的演讲整理而成,主要介绍在美团即时物流分布式系统架构逐层演变的进展中,遇到的技术障碍和挑战,还有我们的解决思路。
导语 | 企业 A 是一家互联网公司,当前在云上计算资源已经接近 10W 核,华东地域专线流量 24G+,资源部署以华东为主、华北、华南、西南等可用区为辅。该企业属于典型的混合云架构,本文主要分享企业A如何通过云联网架构优化实现带宽利用率提升50%,希望与大家一同交流。文章作者:李彬文,腾讯云售后架构师。
腾讯云数据库国产数据库专题线上技术沙龙正在火热进行中,3月12日张文的分享已经结束,没来得及参与的小伙伴不用担心,以下就是直播的视频和文字回顾。
2014年:基于分布式的基础架构 微众银行在2014年成立之时,就非常有前瞻性的确立了微众银行的IT基础架构的方向:摒弃传统的基于商业IT产品的集中架构模式,走互联网模式的分布式架构。众所周知,传统银行IT架构体系非常依赖于传统的商业数据库,商业存储以及大中型服务器设备,每年也需要巨大的IT费用去维护和升级,同时这种集中式的架构,也不便于进行高效的实现水平扩展。从过往经验来看,当时除了oracle等少数传统的商业数据库,能满足金融级银行场景的数据库产品并不多。当时腾讯有一款金融级的分布式数据库产品TD
IT服务能体现宏观度量和管理基础设施的总体情况的可用性,从而体现总体的趋势,发现并解决IT基础设施暴露的问题。
前言 关于IDC假负载验证测试,“腾讯数据中心”已经发送2篇介绍文章《数据中心假负载验证测试之道》、《数据中心假负载验证测试实战指导方案》,今天我们将以某大型微模块数据中心(简称A-IDC)的假负载验证测试为例,继续为大家剖析假负载验证测试情况。 一、假负载验证测试问题概述 A-IDC假负载验证测试主要由基础设施验证测试和微模块验证测试组成。该项目验证测试累积发现基础设施问题280项,微模块测试问题381项。测试发现的问题主要分为4类:设计问题、设备选型问题、设备质量问题、施工工艺问题。 总体来看,设备
接着上篇《做容灾,双活、多活、同城、异地、多云,到底应该怎么选?》,这篇聊聊公有云上应该如何建容灾,跟我们自建机房有什么区别,没看过的同学,建议先从上篇文章看一下。
随着新冠病毒疫情的缓解和控制,全球旅游业逐渐开始重新复苏。尤其在一些度假胜地,游客数量已经恢复到疫情前的水平。
[导读] 也许没有多少人记得2004年发生的事情。但对于老腾讯来说,10年前的那个日子,2004年6月16日永远难以忘怀。这一天,QQ诞生5年后的腾讯在香港联交所主板上市,由此拉开了腾讯快速成长的序幕。 这10年间,腾讯的网络基础架构也伴随着各种业务的发展而发展,变迁而变迁。早年间网络经历的一切,不管是窘迫、重压,还是喜悦都渐渐消失在人们的记忆中,只能在泛黄的老照片,老员工零碎的讲述中寻觅。。。 [2004-2006,稚嫩中开始成长] 2004年的腾讯所有服务器都在深圳赛格、枢纽、东门这些运营商IDC
随着互联网业务快速发展,多IDC的业务支撑能力和要求也逐步提升,行业内的“两地三中心”方案较为流行。
点击▲关注 腾讯云数据库 | 导语 微众银行在2014年成立之时,就非常有前瞻性的确立了分布式架构的基础架构。当时,腾讯有一款金融级的分布式数据库产品TDSQL,其业务场景和对数据库的可靠性要求,和银行场景非常类似。微众银行和腾讯TDSQL团队合作,共同将TDSQL打造为适合银行核心场景使用的金融级分布式数据库产品,并将TDSQL用于微众银行的核心系统数据库。本文是对整个实践历程的总结。 一、背景介绍 微众银行在2014年成立之时,就非常有前瞻性的确立了微众银行的IT基础架构的方向:摒弃传统的基于商业IT
目前,Internet上的数据量爆炸性增长,数据总量呈指数上升,IDC数据中心存储系统必须具有足够的容量以适应不断增长的数据量。 IDC数据中心存储需求之1.大容量 目前,Internet上的数据量爆炸性增长,数据总量呈指数上升,IDC数据中心存储系统必须具有足够的容量以适应不断增长的数据量。存储系统不光要有大量的现实容量,还应该具有很好的可扩展性,能根据数据量的增长提供无缝的、不停机的容量扩充。 IDC数据中心存储需求之2.高性能 信息是具有时效性的,对于企业而言,及时获得所需数据非常关键;对于ICP而言,较高的访问速度是服务质量的重要指标。对于宽带应用,存储系统的带宽要与网络带宽相适应。因此,存储系统的响应速度和吞吐率是IDC数据中心存储系统应该密切关注的问题。从历史上看,计算机速度的瓶颈已逐渐从20世纪80年代的CPU和90年代的网络带宽转移到I/O子系统。因此,要提高IDC数据中心存储系统的整体性能,存储系统的性能提高是一个关键问题。 IDC数据中心存储需求之3.高可用性 IDC数据中心存储系统存储了企业大量的关键数据,因此,必须保证这些数据始终是安全可用的。在任何情况下,例如系统产生错误或遇到意外灾难,数据都不能丢失。系统应具有快速故障恢复能力,保证应用系统永不停机(7×24小时不间断工作),数据始终保持完整性和一致性。 IDC数据中心存储需求之4.可管理性 IDC数据中心存储系统保存着大量的业务数据。对这些数据的管理不光体现在应用层的管理,还体现在存储系统的管理。这主要表现在集中的自动化管理,如数据按特定规则的备份、对系统性能和流量等特性的监测、存储设备的负载平衡等。 以上IDC数据中心存储系统特点需要用相应的技术进行保障。某些技术能在几个方面对存储系统做出贡献,特别是存储系统的管理渗透到整个系统的各个方面,我们很难把它从系统中单独分离出来。但作为讨论方便,我们仍从系统要求出发分别对上述特点进行讨论。 针对存储容量问题,现在最成熟的还是基于磁盘、光盘和磁带的存储技术。这些技术在很长时间内仍将占有主流地位。现在磁盘、磁带的存储容量每年增长1倍,基本上能适应数据的增长。在IDC数据中心存储系统,存储任务是由以上述技术为基础构成的存储系统来完成的,主要有磁盘阵列、磁带库和光盘库。新出现的SAN(存储区域网)、NAS(附网存储)和集群存储等新的网络存储结构为存储系统容量和性能的扩展提供了有力的支持。另外,数据共享技术在一定的条件下可以缓解容量问题。 对于高性能方面,在单个磁盘读写性能提升空间有限的前提下,并行I/O技术和Cache技术成为主角。并行I/O技术目前在国际上正被广泛研究,像磁盘阵列技术、多通道技术等已得到广泛应用。目前研究的重点是大规模并行I/O和多级存储技术,它们主要是从存储系统的整体结构入手,利用SAN和集群等技术进一步提高存储系统的整体性能。对于Cache技术,针对不同的应用(如数据库中事务处理方式、WWW方式等)采用合适的数据预取策略正被广泛应用。此外,采用光纤通道技术作为新一代存储接口已成为趋势,促进了存储系统性能的提高。 对于数据可用性问题可从多个层面进行讨论。磁盘阵列是一种最基本的高可用存储技术。在IDC数据中心存储系统,应选择双电源、双控制器、没有单点故障的磁盘阵列。对于系统层面,集群、SAN等技术也可以大大促进系统可用性的提高。另外,Standby技术、系统整体冗余、远程实时备份和灾难恢复等技术也是高可用性存储所不可缺少的技术。 我们看到,冗余磁盘阵列、存储区域网和集群技术对存储系统的各个方面都有较好的贡献,将这几种技术紧密联系在一起就构成了满足IDC数据中心存储系统要求的存储系统。对于IDC数据中心存储系统而言,这几种技术必然会得到进一步的重视。 存储管理贯穿于存储系统的各个方面。数据共享、无缝扩展、实时备份、容错技术、系统监控、流量控制、远程数据备份、灾难恢复等无一不需要相应的软件进行保障。对于IDC数据中心存储系统,高效、稳定、安全的存储软件是必不可少的,而这一点过去往往被人们忽视。现在,人们已开始认识到存储管理的重要性。著名IT企业,如IBM、Compaq、HP等,均推出了自己的存储管理软件,专业的存储软件公司,如VERTIAS公司,在存储软件方面更有全线的存储管理软件可供选择。 IDC数据中心存储系统作为一个整体,需要大量相互融合的技术进行保障。一方面要发展更好的技术,另一方面要把各种技术结合成为一个整体,提供稳定、安全、高效的整体解决方案。
导语 | 在金融行业IT系统国产化的大背景下,国内金融行业开始推动IT基础设施国产化,逐渐摆脱对于传统IOE架构的依赖。微众银行自成立之初,就放弃了传统IOE架构路红,结合腾讯金融级分布式数据库TDSQL,建立了基于DCN单元化架构模式的分布式基础平台。如今这套架构承载了微众银行数亿级别的用户规模,数百套银行核心系统,和每天数亿次的金融交易。本文由微众银行数据库平台室室经理、腾讯云TVP 胡盼盼在 Techo TVP开发者峰会「数据的冰与火之歌——从在线数据库技术,到海量数据分析技术」 的《分布式数据
TDSQL是腾讯提供的一套完整的MySQL数据库集群化管理解决方案,作为私有云TStack平台重要的数据库产品能力,旨在解决高可用、高性能、分布式、配套设施等方面问题。 TDSQL除了在腾讯内部有大量的使用场景,在外部市场中也有诸多应用场景;2014年被WeBank选中,作为其核心交易系统的数据库解决方案,以私有云方式交付;2015年,在腾讯云上正式推出。目前已经为500+机构提供数据库的公有云及专有云服务,客户覆盖计费、第三方支付、银行、保险、互联网金融、物联网、互联网+、政务等领域。 TDSQL私有云版
导语 BIM+IDC从2017年1.0版本,历经一次1.1版本更新,迭代至2020年2.0版本。从基于设备父子关系定位数据中心配电设备故障的根因,到探索全设备拓扑关系及IDC仿真模拟,并最终在2020年实现了基于数据中心全生命周期内各项数据的采集清洗,训练出一套基于大数据分析、专家判断、物理关系搭建的根因分析模型。 历时3年,我们逐步完成了7D-BIM概念的现场落地。基于数据中心系统图、设备属性与告警信息构建BIM数据库;在此基础上构建拓扑结构,实现三级分层(物理层[配电、空调系统]、管控层[告警]、能
现在不少的企业用户都选择了服务器来进行业务信息资源的存储。那么关于服务器托管和服务器租用之间的门道,不知道大家是否清晰。今天,我们深度剖析一下服务器托管和服务器租用二者的具体优势,让大家以后少走弯路。
如果,你在寻找一款数据库,希望: •在任何情况下,数据都不丢失或错乱; •能7*24小时不间断的对外提供服务,即使故障也不会中断; •能支撑业务量10倍以上的弹性伸缩,不用担心会被压垮; •能快速响应请求,为用户提供最爽的体验; •没学习门槛,能快速上手; •便宜,少花点钱; 那么,TDSQL就是你的菜! TDSQL(Tencent Distributed mySQL-腾讯分布式MySQL)是由腾讯技术工程事业群计费平台部针对金融联机交易场景开发的高一致性数据库集群产品。其底层基于MySQL,针对金融OLT
日前,微众银行顺利完成了首场断电演练。这是一场模拟单个数据中心完全不可用的灾难恢复演练,通过模拟城市级灾难事故,切断其中一个IDC中心来检验提升系统恢复服务、数据安全保障能力而进行的运维活动。 在腾讯云企业级分布式数据库TDSQL的技术支撑下,IDC中心失联后,微众银行的全量业务“秒级切换”到其他数据中心,真正实现了业务“零感知”,在金融行业内尚属首次。 为了模拟单个中心故障的场景,运维人员关闭一个数据中心的所有内外网出口,用户流量立刻自动切换到正常的数据中心,全行所有业务和渠道正常提供服务,真正做到用
游戏业务运维工作很容易由于各项事务繁杂,陷入到只关心手头上的工作,“云梯”服务化主要是让运维能更好站在业务和玩家的角度来思考支撑工作如何更好服务于业务。通过数据来体现服务质量,并通过流程驱动闭环的形成,不断的提升运维服务质量。 “云梯”服务化涉及范围较多,如版本服务、活动服务、登录服务、下载服务、成本服务等。在上面的故障处理、大版本等章节中,已经介绍了版本服务、活动服务、下载服务等,所以这里只挑取登陆服务在QQ炫舞和DNF的应用简单介绍。 QQ炫舞做的登陆服务中,通过采集登录系统以及游戏内日志,发现每天约十
在当今互联网行业,大多数人互联网从业者对"单元化"、"异地多活"这些词汇已经耳熟能详。而数据同步是异地多活的基础,所有具备数据存储能力的组件如:数据库、缓存、MQ等,数据都可以进行同步,形成一个庞大而复杂的数据同步拓扑。
郜德光,携程技术保障中心高级数据库经理,负责数据库相关的运维工作,参与了SQL Server和MySQL的高可用以及数据库容灾建设。喜欢钻研技术,对数据相关的技术一直保持着浓厚的兴趣。
随着云业务发展,作为iaas层的网络变得越来越重要并且业务依赖性强,网络工程师将面临更多问题和困难,尤其是全链路网络问题排查(4G、固网、骨干网、IDC或是TCP/IP协议各层问题)。近年来国家提出“一带一路”倡议,鼓励企业出海,但由于海外运营商情况复杂,网络工程师与用户交互的效率成为亟待解决的问题。腾讯网络运营团队经过大量的实践和探索,建设并推出了itango轻量级网络质量监控平台,希望通过开放共建的方式,与业界同仁一起努力提升网络故障处理效率,让网络畅通无阻,为业务保驾护航。
领取专属 10元无门槛券
手把手带您无忧上云