首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

B站宕机事故复盘:2021.07.13 我们是这样崩的

22:57 公司 Oncall 的 SRE 同学(无需 VPN 再次登录内网鉴权系统)发现在线业务主机房七层 SLB(基于 OpenResty 构建) CPU 100%,无法处理用户请求,其他基础设施反馈未出问题...为何多活 SLB 故障开始阶段也不可用? 多活 SLB 故障时因 CDN 流量回源重试用户重试,流量突增 4 倍以上,连接数突增 100 倍到 1000W 级别,导致这组 SLB 过载。...IP、CDN 切量 SLB 的预案中只演练过 SLB 机器初始化、配置初始化,但四层 LB 公网 IP 配置、CDN 之间的协作并没有做过全链路演练,元信息平台之间也没有联动,比如四层 LB 的...SLB 节点的环境配置初始化托管到平台,联动四层 LB 的 API, SLB 平台上实现四层 LB 申请、公网 IP 申请、节点上线等操作,做到全流程初始化 5 分钟以内。...事故发生时,故障处理人第一时间找 backup 作为故障指挥官,负责故障通报故障协同。团队里强制执行,让大家养成习惯。 建设易用的故障通告平台,负责故障摘要信息录入故障中进展同步。

2.5K20
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    GTM(Global Traffic Manager)GSLB(Global Server Load Balancing)服务介绍「建议收藏」

    网宿GTM,提供更可靠、稳定安全的流量调度服务,助您轻松构建混合云应用。...调度策略丰富多样,不仅支持自定义线路配置,支持主备负载均衡,还支持线路智能调度、动态比例智能切换,这些特性让GTM能够灵活快速的构建同城多活异地容灾服务。...4.高防抗D 网宿公司DNS技术方面有深厚的积累,可以有效防护诸如SYN flood、UDP flood、ICMP flood等多种类型的 DDOS 攻击。...提供国内主要省份,主要运营商海外七大洲的地域分布数据,帮助用户运营推广区域的考虑奠定基础。...简单说,有两个IP地址A(主)B(备),正常情况下,用户访问IP地址A、当IP地址A故障后,用户将不再访问到IP地址A,而是访问到IP地址B。

    5.3K30

    linux中,&&&, ||| ,&> 与 >的区别

    对应刚接触linux命令的小伙伴们来说,这些符号一定是很困扰的下面我们一起来看这些符号区别用法& 表示任务在后台执行,如要在后台运行如:[root@localhost local]# java -jar...txt” > /tmp/log.txt在跟目录下根据名字来查找*.tx输入的日志放置/tmp/log.txt文件中&>可以将错误信息或者普通信息都重定向输出---------------------&& ...|| 属于逻辑运算符号& | 属于位操作符   ---------------------------------------------------------------------------...-----------------------------------------一、&&&的区别1.1 相同点:    &&&都可以用作逻辑与的运算符,表示逻辑与(and),当运算符两边的表达式的结果都为...备注:这道题先说两者的共同点,再说出&&&的特殊之处,并列举一些经典的例子来表明自己理解透彻深入、实际经验丰富。

    1.8K40

    当SRS遇到K8s:快速构建高并发直播集群

    ,更新SLB配置监听保活等 配置 文件 Volume ECS需要手动管理配置;K8s配置ConfigMap,通过Volume挂载为配置文件,扩容时不用变更 扩容 手动 自动 需要新开进程时,ECS需要申请部署配置...SLB配置,K8s自动更新SLB配置 Step1: 创建一个无状态应用k8s deployment,运行SRSOrigin ServerNginx,HLS写入共享Volume: cat <<EOF...Note: 这里我们选择ACK自动创建SLBEIP,也可以手动指定SLB,参考指定购买的SLBEIP。...EIP,也可以手动指定SLB,参考指定购买的SLBEIP。...Note: 如果是自动创建SLBEIP,那么HLSRTMP/HTTP-FLV的IP是不一样的,你可以选择手动指定SLB,这两个服务可以用同一个SLB,参考指定购买的SLBEIP。

    1.6K10

    干货 | 携程第四代架构探秘之运维基础架构升级(下)

    2014年底携程技术中心的框架、系统运维团队共同启动了架构改造项目,历时2年,涉及所有业务线。本文回顾了携程整个技术架构改造过程中的一些实践收获。...为了解决路由运维方面的粒度效率问题,携程决定打造自己的软负载(SLB)系统,替代掉硬件LB的七层路由职责。经过讨论,SLB确定了自己的职能目标,即可以高并发、实时、灵活、细粒度调整七层路由规则。...携程SLB的开发过程中,最重要的几点是: (1)面向应用建模; (2)多次更新一次生效 (3)多并发操作的挑战; (4)多角色运维冲突的问题; (5)监控告警。 1....开发人员眼中最重要最核心的常见模型就是一个一个的应用。所以SLB要做的是如何应用模型融合起来,换句话说,所有对SLB的操作都要被抽象为对一个应用的操作。...(2)对于验证,携程框架层面统一提供了验证入口常规验证方法(携程称为“点火”),收口了所有应用的验证规范标准,容错性得到提升。 (3)Tars系统设计方面充分考虑了速度需求。

    1.9K90

    负载均衡产品的3大应用场景

    载均衡设备厂商在国内外有很多,国际上评价较高的有F5Radware2大厂商,国内做的比较好的有深信服(性能上可以做到F5媲美),华三也做但市场占有率略低于深信服。 ?...按照使用场景划分负载均衡有3大应用场景:全局负载均衡(GLB)、链路负载均衡(LLB)、服务器负载均衡(SLB)。...2)SLB(服务器负载均衡):一般服务器区域前的接入或者汇聚交换机旁挂SLB,感知本区域服务器状态并通过负载均衡算法(如轮询、加权轮询等)将访问流量给对应的后台服务器。...部署时一般都是2台SLB集群部署增加高可靠性,集群部署后会虚拟出一个浮动IP对外呈现,而SLB会感知其下所有服务器的IP地址,当业务流量进来时首先到SLB呈现的浮动IP上,SLB通过负载均衡算法将业务流量下发到对应的一台服务器上

    3.6K41

    记一次混合云API暴露的反思

    近来一次混合云架构中API接口暴露由于种种原因,遇到点波折,记录一下。...,后端采用虚拟服务器组,组内ECS部署同Region的不同Zone,保障跨Zone的靠可用性,考虑到数据的安全性将数据持续化IDC侧,阿里云与IDC通过云上部署深信服设备与IDC侧Cisco设备通过...,因此采用Nginx反向代理后端APP模式,HTTPS方式,将证书放在前端WEB-Server侧即可,或可以使用SLB的七层模式将证书放置SLB上。...1.4 解决方案: 既然Nginx反代不行,SLB后端也无法直接添加IDC侧的APP服务器,那就利用WEB-server利用iptables进行端口转发,配置DNATSNAT直接将流量抛过去,想到这里开始着手测试实施...2.3 域名及SLB 由于是测试域名前端暂时未添加WAF/高防IP等防护设备,将域名解析A记录解析至SLB公网地址,SLB配置虚拟服务器组,组内添加Web-Server,此时监听端口为Dnat端口。

    1.6K30

    mysqlworkbenchwindows的安装使用

    实操大数据之前,我们可以先在本地进行一些小型数据库的操作,对sqlspark进行一些初步了解。本文就先介绍下mysqlworkbenck的安装使用,以及介绍python链接数据库的操作。...1. mysql安装使用按照指示操作默认安装,安装时,MySQL会要求我们设置一个本地登陆账号,账号名一般命为root,端口为3306,自定义一个password即可。.../workbench/按照步骤进行安装,安装完成后启动输入设置的mysql的密码进入,然后创建一个schema创建后,左侧Schemas的tab就能看见创建的数据库了,然后就可以在里面创建自己的tables..., 因为链接的本地数据库,所以ip:port默认是localhost:3306,workbenck里面我们已经创建了一个数据库test。...Python中,最有名的ORM框架是SQLAlchemy。

    1.8K131

    精!阿尔卡特交换机设备命令大全

    阿尔卡特是电信系统设备以及相关的电缆部件领域的世界领导者。阿尔卡特的业务遍及全球130多个国家,拥有120,000名员工。...目前,阿尔卡特的语音、数据多媒体信息通信系统处于世界领导地位。 ” 市场上,阿尔卡特也以多项骄人业绩,傲居领导地位。...这包括: 交换领域,居第一位(占有30%以上的市场份额); 宽带接入领域,居第一位(占有ADSL 50%以上的市场份额); 光交叉领域,居第一位; 卫星领域,居第一位。...配置: ip slb admin enable ip slb cluster zbslb vip 192.168.0.234 ip slb server ip 192.168.0.236 cluster...zbslb ip slb server ip 192.168.0.237 cluster zbslb ip slb probe zbslb_probe1 ping ip slb cluster zbslb

    3.3K01

    nacos停服方案实践

    引言系统生命周期中, 免不了要做升级部署, 对于关键服务, 我们应该能做到不停服务完成升级。另外服务的SLA标准一般都要在四个9以上所以对于优雅停服的需要就十分有必要了。...一开始我们想到一种方案,slb配置上所有服务器的健康检查端口,每个项目的健康检查地址修改为不一样,通过域名来转发到每台服务器。方案如下图所示:如上图就有几个问题:集群多,服务器数量多。...看似问题都有解决方案,但是我们既然有了网关,为什么还要多此一举slb上再维护一套服务器信息,并且发版还需要再维护slb,如果slb有多个或者以后要做迁移就又得修改。...因为网关不仅在微服务的管理之下,还要挂在slb下面,网关在发版的同时需要维护slb online、offline。具体api接口参考slb文档。...使用shutdownspringcloud做不到优雅停机了,就需要另辟蹊径。

    2.2K30

    图文简述多故障场景下双活数据中心的应对

    因此通过数据备份来启动备用的数据中心服务,一般切换周期至少几小时以上。 二、应用双活: 1、两个数据中心边界部署GSLB,单数据中心全部中断服务情况下,秒级切换。...2、单数据中心内部署两台SLB,当单SLB中断或某单服务器中断时,仍能正常工作。由于SLB双机部署,备机实时备份会话,当SLB-1机时,流量瞬间切换SLB-2接管,业务无影响,切换时间为秒级。...3、单数据中心服务器全部中断时,通过GSLB、数据中心间二层波层链路,仍能正常工作。...老用户:由于用户访问的流程是先向GSLB请求VIP,当获取一个VIP后,就会直接通过VIP访问,DNS失效前不再请求新的DNS。...可采用OceanStor V3系列产品,实现存储双活架构,为两个数据中心存储同时提供读写服务,且整个存储系统架构全冗余,任意数据中心故障时,另外一个数据中心有一份存储设备相同数据可用,最大化提高了业务连续性

    2.2K10

    双活数据中心建设-应用层双活设计(part-2)

    一般web层的虚机不需要进行跨数据中心集群部署,因为web是无状态的,所以可以2个数据中心独立进行集群部署,同时每个数据中心部署独立的SLB,可以把SLBWEB组合为一个资源池协同提供web相关服务...APP层DB层就需要部署跨数据中心集群软件,从而实现应用层双活。...当客户侧http请求过来,SLB会呈现一个虚拟IP,对这个虚拟IP的访问会被SLB重定向到SLB后端的服务器资源池中的某一台虚机,即左右2边的WEB服务器会组成各自的资源池。...SLB上让虚拟IP关联2个资源池即关联到2个数据中心(可以设置优先级)。这样客户可以就近优选资源池中的WEB来提供服务。...如果当前资源池中的服务器全部出现故障,没关系,SLB里还关联了另外一个即另外中心的资源池中使用右边的服务器处理。

    2.3K50

    7行代码让B站崩溃3小时,竟因“一个诡计多端的0”

    官方说法是: 某种发布模式中,应用的实例权重会短暂地调整为0,此时注册中心返回给SLB(负载均衡)的权重是字符串类型的“0”。...此发布环境只有生产环境会用到,同时使用的频率极低,SLB前期灰度过程中未触发此问题。...SLBbalance_by_lua阶段,会将共享内存中保存的服务IP、Port、Weight作为参数传给lua-resty-balancer模块用于选择upstream server,节点weight...然后立马相关技术人员拉了个紧急语音会议开始处理。 5分钟后,运维发现承载全部在线业务的主机房七层SLB的CPU占用率达到了100%,无法处理用户请求,排除其他设施后,锁定故障为该层。...不过,有人指出,死循环不罕见,罕见的是SLB层、分发过程出问题,它还不像在后台出问题很快能重启解决。

    59020
    领券