首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

B站宕机事故复盘:2021.07.13 我们是这样崩的

故障止损 23:20 SLB 运维分析发现在故障时流量有突发,怀疑 SLB流量过载不可用。...SLB 运维继续排查 CPU 100% 的问题,量由业务 SRE 同学协助。 01:18  直播业务流量切换到 SLB 新集群,直播业务恢复正常。...业务哪些 URL 规则支持多活,目前多活流量调度策略是什么? 上述信息当时只能用文档临时维护,没有平台统一管理和编排。 多活量容灾能力薄弱 多活量依赖 CDN 同学执行,其他人员无权限,效率低。...支持多活接入层规则编排、数据层编排、预案编排、流量编排等,接入流程实现自动化和可视化。 抽象多活量能力,对接 CDN、存储等组件,实现一键全链路量,提升效率和准确率。...故障演练 本次事故中,业务多活流量调度、新建源站速度、CDN 量速度 & 回源超时机制均不符合预期。

2.5K20
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    负载均衡(SLB)基础入门学习笔记

    简单的说一为了用户的使用体验(减少工作响应时间)以及将系统资源使用率达到最高(将单个繁重的工作转发给后端多个节点处理), 目前负载均衡技术大多数是用于提高诸如在Web服务器、FTP服务器和其它关键任务服务器上的...基础上通过其VIP地址,在加上四层中的应用端口,来决定哪些流量需要做负载均衡,对需要处理的流量进行NAT处理,转发至后台服务器,并记录下这个TCP或者UDP的流量是由哪台服务器处理的,后续这个连接的所有流量都同样转发到同一台服务器处理...,以达到Denial of Service(DoS)的目的; 四层SLB: 四层模式下这些SYN攻击都会被转发到后端的服务器上 七层SLB: 七层模式下这些SYN攻击自然在负载均衡设备上就截止,不会将其代理通信到后端服务器上...进行应用流量分发?...(1)本地负载均衡能有效地解决数据流量过大、网络负荷过重的问题,并且不需花费昂贵开支购置性能卓越的服务器,充分利用现有设备,避免服务器单点故障造成数据流量的损失。

    5.6K21

    B站多活容灾高可用建设思路

    在接入层,包括了DCND、SLB、API GW。 用户基于DNS和HTTP DNS访问DCDN节点,然后DCDN回源时,由边缘POP点做流量汇聚,路由到机房。 因为B站做了多活,所以有多个可用区。...SLB是南北向的流量架构,服务层流量是东西向的流量架构,服务层的高可用方案偏向于服务治理。 在B站,服务发现是通过Discovery实现的,采用的是多可用区部署。...多活流依赖于CDN运维:因为B站多活流量调度是在边缘DCDN实现的,一般是SRE提出一个流需求,告诉CDN同学,同时告知要切到哪个域名、哪个URL,然后CDN开始变更流,同时通知SRE和研发,让SRE...多活的量编排 编排定义确定之后,就可以发起量了。 量的时候首先要选择业务范围,是业务还是业务域。 然后选择量的权重,可以精确控制流量。 还需要体现,量是否需要DB、KV。...大多时候只是DCDN流量即可,DB需要考虑可能的数据冲突和修复问题。

    1.3K30

    GTM(Global Traffic Manager)和GSLB(Global Server Load Balancing)服务介绍「建议收藏」

    GTM基于资源的健康状况及流量负载做智能调度决策,为用户提供最佳访问IP。网宿GTM,提供更可靠、稳定和安全的流量调度服务,助您轻松构建混合云应用。...如主资源添加1.1.1.1,2.2.2.2,一级备添加3.3.3.3,4.4.4.4,二级备添加5.5.5.5… 调度策略管理: 按负载权重、地域或运营商属性来进行流量分配,不同的资源分配不同比例的流量...同时,网宿拥有优质的骨干节点资源,具备防御超大流量的DDOS攻击及DNS Query查询攻击能力,保护网站远离DDOS攻击困扰,极大地增强了防攻击的能力。...假设源站有多个IP地址A,B,C,D,A、B设为主源,C,D作为备源,A的性能最佳,主源A,B的负载比例可设为3:2,即A的负载为60%,B的负载为40%,当主源全部故障时,备源将启用,当主源恢复时,回主源...场景四:CDN智能互备 当客户网站有使用多个CDN服务商时,通过全网融合流量分配解决方案可实现CDN之间的互备。

    5.3K30

    7行代码让B站崩溃3小时,竟因“一个诡计多端的0”

    首先,运维先热重启了一遍SLB,未恢复;然后尝试拒绝用户流量冷重启SLB,CPU依然100%,还是未恢复。...接着,运维发现多活机房SLB请求大量超时,但CPU未过载,正准备重启多活机房SLB时,内部群反应主站服务已恢复,视频播放、推荐、评论、动态等功能已基本正常。...简单来说,就是大家伙点不开B站就开始疯狂刷新,CDN流量回源重试 + 用户重试,直接让B站流量突增4倍以上,连接数突增100倍到千万级别,多活SLB就给整过载了。...凌晨1点,新集群终于建好: 一边,有人负责陆续将直播、电商、漫画、支付等核心业务流量切换到新集群,恢复全部服务(凌晨1点50分全部搞定,暂时结束了崩了逼近3个小时的事故); 另一边,继续分析bug原因。...他们怀疑是该函数触发了jit编译器的某个bug,运行出错陷入死循环导致SLB CPU 100%。 于是就全局关闭了jit编译,暂时规避了风险。一都解决完后,已经快4点,大家终于暂时睡了个好觉。

    59020

    B站服务稳定性建设:高可用架构与多活治理

    其中南北向这个部分就是由我们的DCDN、SLB,也就是7层负载,还有API网关。...虽然我们的服务开始在另一个可用区做整个部署,但在流量层面,我们只能支持读接口的接流,而且接口大部分都通过 CDN侧或者SLB侧进行流量的转发,还有一些缓存或消息队列的一些组件未完成多活改造,存在跨机房调用的情况...在进行日常的量演练或故障演练前,我们会做前置的检查,例如容量巡检、sos层面的监控、数据库的连接池、业务在SLB平台的限流配置等,要提前检查其状态,并预检DB和KV主从同步的延迟情况。...2)量 在量的过程中,我们会观测业务多活流量的变化与新引入的SLO体系的相关指标。...上图是执行量过程的界面,在量申请时会选择一个业务,然后选择它的一个流纬度,包括它要求的流比例,选择是否同时去切换我们的存储,执行流是哪些规则,对量对象选择进行配置。

    54420

    PS-前端图教程(jpg图和png图)

    ps:多日后的补充说明 部分看了文章的设计师,来找我说怎么图。sorry?在我的理解,这就是图啊,但是他们所指的“图”是,怎么把设计图制作成html页面。...认为前端是图的,(也确实是这么叫的,本人情感上很不愿意听前端被叫做“图的”)所以也会误认为我的这篇文章是写给设计师的。...不过,作为一个设计出身的前端来说,摸ps就和摸键盘一样了 PS图步骤说明 一共分两大项:jpg图、png图。...二、PNG图 透明图的核心理念是,你要把不需要的背景图给隐藏掉,只让需要的留下来,底部背景变成像马赛克那样的样式。 ? 1.打开ps拖进来你要的psd或者tif文件, 一定得是带图层的。...那就图呗! 那还要纠结的话那就合并图层吧!

    15.9K50

    同城异地灾备

    同城双活,则是基于多机房的情况下,流量经过双机房,一个机房挂掉,完全不影响业务。...从最开始,业务不断的发展,各种流量拥上来,导致业务的吞吐量的剧增,从而促使底层的技术要不断的进行扩展,从而云平台的版本是否支持,必须要进行升级。。。...3、 SLB高可用 在每个机房中,流量的入口总是SLB,从而保证SLB高可用也是相当关键的,所有的VM的rs服务器都是挂接在SLB之后,一旦SLB不可用,那么所有的业务中断。。。...要保证SLB的高可用,好像是主要靠交换机来进行保证,使用什么OSPF动态路由协议,从而保证每个SLB流量都是分摊的,并且SLB之间可以进行会话同步,从而无论是长连接或者是短连接都不会出现太大的问题,业务报错...无论是业务的发展,还是人的发展,感觉在更多的时候,技术都不是问题,而发展到最后一都是人的问题。。。到底是人还是狗,WTF。。。 快速的迭代的时候,其实最主要的就是心态。。。。

    4.1K31

    负载均衡产品的3大应用场景

    按照使用场景划分负载均衡有3大应用场景:全局负载均衡(GLB)、链路负载均衡(LLB)、服务器负载均衡(SLB)。...1)LLB(链路负载均衡):一般部署与企业或数据中心的网络出口,正常情况下企业或数据中心一般都具有多出口连接不同的运营商,通过链路负载均衡设备可以做到出口流量按照既定策略实现出口流量的负载分担,降低出口流量压力...同时LLB还可以做到流量的源进源出即同一个运营商的流量进来访问服务器,对应的响应流量也会返回到对应的运营商,这样可以避免跨越运营商的流量互访带来的带宽延迟。 ?...2)SLB(服务器负载均衡):一般在服务器区域前的接入或者汇聚交换机旁挂SLB,感知本区域服务器状态并通过负载均衡算法(如轮询、加权轮询等)将访问流量给对应的后台服务器。...部署时一般都是2台SLB集群部署增加高可靠性,集群部署后会虚拟出一个浮动IP对外呈现,而SLB会感知其下所有服务器的IP地址,当业务流量进来时首先到SLB呈现的浮动IP上,SLB通过负载均衡算法将业务流量下发到对应的一台服务器上

    3.6K41

    点晴模ERP,专为模行业研发

    以下是点晴模ERP针对数字化车间的功能特色一码多单位:支持各计量单位之间的自动换算,以便满足BOM自动算料、分优化、申购等多种单位需求。...智能分:实现了分料自动集成原始母料的基础属性,自动识别可替代物料,自动计算尾料,从而降低呆滞物料产生。...点晴模ERP为模企业打造业财一体化管理环境,覆盖业务全程,财务数据与业务数据同频,核算精准。...智能存货成本核算细化到每一张工单的直接生产制造成本,同时自动生成相应凭证、资产负债表、现金流量表、损益表、科目余额表等多种财务报表,帮助模企业满足财务报税及内部财务管理需求。...点晴模ERP系统通过以上几大核心功能,让模企业从而实现精益生产和智能制造,逐步迈向数字化乃至智能工厂。

    22710

    限流&熔断的考量

    限流的原则,是尽量在流量源头限,并且是需要依据现有团队所掌握的技能来。 如上最左侧便是主要流量的来源入口,首先就要限制的地方就是slb节点的income流量 slb节点的流量特点是啥?...流量特点: 几乎来自外部的流量都从这个入口过来,无论是带业务属性的还是不带业务属性的、ddos的、正常流量、爬虫等统统从这里来 需要拦截是啥(由于流量过了这个节点就是我们的应用系统了,因此最好是把非业务应用相关的流量挡住...,限制住,让它有序进来,不要冲垮系统): ddos攻击流量 其他通用级的不安全流量:sql注入、xss注入等 有些许限流的: 连接并发限制 每ip请求限流控制 爬虫流量 上述是slb节点,但是也有团队考虑到本身技能...,以及代码git化存储的原则,会把某些配置往后面的nginx/kong移,因为slb的配置是UI界面化的,代码化存储比较不直接; 但是nginx/kong这种就相对容易多了,而且恢复时只要脚本到位,分分钟就恢复一套系统...需要做的: 普通场景下的限流 突发流量下的限流,如:秒杀等 CC攻击+验签的过滤(由于公私钥证书一般加在java节点上,因此此处放java系统范畴,而不是slb之前,或者nginx之前) 可以在gateway

    43220

    限流 & 熔断的考量

    - 前言 - 限流的原则,是尽量在流量源头限,并且是需要依据现有团队所掌握的技能来。 如上最左侧便是主要流量的来源入口,首先就要限制的地方就是slb节点的income流量。...slb节点的流量特点是啥?加限流怎么加?限流限的是啥? 错了,此处是拦截,不是限流......流量特点: 几乎来自外部的流量都从这个入口过来,无论是带业务属性的还是不带业务属性的、ddos的、正常流量、爬虫等统统从这里来。...有些许限流的: 连接并发限制 每ip请求限流控制 爬虫流量 上述是slb节点,但是也有团队考虑到本身技能,以及代码git化存储的原则,会把某些配置往后面的nginx/kong移,因为slb的配置是UI界面化的...需要做的: 普通场景下的限流 突发流量下的限流,如:秒杀等 CC攻击+验签的过滤(由于公私钥证书一般加在java节点上,因此此处放java系统范畴,而不是slb之前,或者nginx之前) 可以在gateway

    74340
    领券