本文根据吉翔老师在〖deeplus直播:甩掉技术债包袱,B站的SRE体系建设与转型实践〗线上分享演讲内容整理而成。
同城异地灾备,主要是用来进行备份容灾的,从而当一个数据中心挂了,另外一个数据中心经过切换之后,能让服务迅速的恢复。
前几天在北京出差时候,微信群有个同学问了一个问题,为什么800并发压测,服务器还没有报错?当时群里其他同学提了很多观点,比如:
最近和很多测试同学交流时,发现大家对性能测试基础的一些知识理论比较欠缺,导致在实际的工作实践中遇到了很多不好理解的难题。因此最近在重写性能测试基础理论知识相关内容,也算重新整理自己的思路。
昨天帮星球一位同学做了面试求职分析,沟通过程中我问了他一个问题:如何分析性能需求?得到的回答在我看来是存在一些不足的,考虑的不够完善。
随着医疗、大型企业行业上云步伐的加快,上云后的业务系统安全性如何保障成为客户关注的重点。对于医疗、大型企业客户,往往建有自己的数据中心,如何保障极端情况下业务系统的稳定运行?双活、灾备,能帮到我们!
请看我之前写的 Prometheus简介,原理和安装 https://www.cnblogs.com/you-men/p/12839535.html
看文章可以知道这次故障,主要是因为SLB层面故障引起的,最终是通过多活进行服务的恢复。
2022年,基于对稳定性的焦虑...和思考,交易平台联动中间件平台启动过异地多活项目的探索,虽然完成了核心应用及基础组件的改造,但在疫情&降本增效的影响下并未真正投产,同时也缺乏充分的测试以及线上流量的大规模验证;后续在不断的业务迭代中,相关设计及代码被冲击的面目全非,相关的多活自动化测试case也并没有沉淀下来。
自建 Redis 系统是得物 DBA 团队自研高性能分布式 KV 缓存系统,目前管理的 ECS 内存总容量超过数十TB,数百多个 Redis 缓存集群实例,数万多个 Redis 数据节点,其中内存规格超过 1T 的大容量集群多个。
客户为金融企业对SLA要求及数据安全性很高,有限于考虑到业务的高可用性,采用混合云部署,业务流量入口为阿里金融云,前端可以添加安全设备WAF/CDN/高防IP等,之后Cname到统一入口SLB负载均衡上,后端采用虚拟服务器组,组内ECS部署在同Region的不同Zone,保障跨Zone的靠可用性,考虑到数据的安全性将数据持续化在IDC侧,阿里云与IDC通过云上部署深信服设备与IDC侧Cisco设备通过Ipsec ×××互联(考虑到稳定性目前已经实施专线互通),后端APP-Server与DB-Server部署在IDC,可参考下图:
在B/S应用中的双活设计一般考虑三个层次,分别是WEB层、APP层、DB层。一般web层的虚机不需要进行跨数据中心集群部署,因为web是无状态的,所以可以在2个数据中心独立进行集群部署,同时在每个数据中心部署独立的SLB,可以把SLB和WEB组合为一个资源池协同提供web相关服务。
内容来源:2017 年 12 月 21 日,驻云科技资深架构师翟永东在“云时代企业架构的搭建”进行《云上架构如何实现高性能和高可用》演讲分享。IT 大咖说(微信id:itdakashuo)作为独家视频合作方,经主办方和讲者审阅授权发布。 阅读字数:2851 | 8分钟阅读 摘要 云上架构需要关注多方面的因素,本次主要讲的是高可用和高性能,从这两方面展开深度的解析如何搭建完善的云上架构。 嘉宾演讲视频及PPT回顾:http://suo.im/4sKQd8 云上架构概述 云上搭建架构不单单需要考虑到性能和可用性
那么我们在打开TCP连接或者用UDP发送一个数据报之前,接收方往往是一个域名,例如xxx.com,此时需要将这个域名转换成IP地址,那么怎么进行转换的呢???
音视频服务器要解决的核心问题是一样的,因此无论哪个公司的服务,都不会从0开始码代码,都会基于开源项目改。那么从开源到能提供商业服务,到底有哪些路要走? 个人介绍 大家好,我是杨成立(忘篱),目前在阿里云负责RTC的传输网络,之前在蓝汛CDN负责直播的传输网络,这十年左右一直在做视频的后端服务,也是开源视频服务器SRS的作者,SRS目前是全球Top1的开源视频服务器。 后端服务都架构在云上,CDN的趋势也是边缘云,这是因为云计算成为各种服务的基础设施,当然也包括视频的后端服务。开发者可以便捷的直接使用云厂
音视频服务器要解决的核心问题是一样的,因此无论哪个公司的服务,都不会从0开始码代码,都会基于开源项目改。那么从开源到能提供商业服务,到底有哪些路要走?本次LiveVideoStackCon 2021 上海站中,我们邀请到了阿里云RTC传输网络负责人杨成立(忘篱)为我们从边缘云原生的角度详细解析RTC服务架构的演进。
Kubernetes 集群中,业务通常采用 Deployment + LoadBalancer 类型 Service 的方式对外提供服务,其典型部署架构如图 1 所示。这种架构部署和运维都十分简单方便,但是在应用更新或者升级时可能会存在服务中断,引发线上问题。今天我们来详细分析下这种架构为何在更新应用时会发生服务中断以及如何避免服务中断;
来源 | 经授权转载自 哔哩哔哩技术 公众号 至暗时刻 2021 年 7 月 13 日 22:52,SRE 收到大量服务和域名的接入层不可用报警,客服侧开始收到大量用户反馈 B 站无法使用,同时内部同学也反馈 B 站无法打开,甚至 APP 首页也无法打开。基于报警内容,SRE 第一时间怀疑机房、网络、四层 LB、七层 SLB 等基础设施出现问题,紧急发起语音会议,拉各团队相关人员开始紧急处理(为了方便理解,下述事故处理过程做了部分简化)。 初因定位 22:55 远程在家的相关同学登陆 VPN 后,
GTM(Global Traffic Manager的简写)即全局流量管理,基于网宿智能DNS、分布式监控体系,实现实时故障切换及全球负载均衡,保障应用服务的持续高可用性。GTM基于资源的健康状况及流量负载做智能调度决策,为用户提供最佳访问IP。网宿GTM,提供更可靠、稳定和安全的流量调度服务,助您轻松构建混合云应用。
最近有个集团级的云项目处于实施过程中,客户对数据备份、应用双活视为同一个事物,要求我方将原秒级数据备份升级为秒级应用双活。实际问题,备份与双活是不同的两个概念。以下我们用图文方式简述双活与数据备份的区别。
我们都对高可用有一个基本的认识,其中负载均衡是高可用的核心工作。本文将通过如下几个方面,让你妥妥的吃透“”负载均衡”。
随着苏宁线下线上业务以及全产业、全业态规模式快速增长,特别是每年苏宁 818 大促、双 11 等大促节点,销售订单基本都呈现倍数级增长态势,需要进行大量资源扩容,单个数据中心的容量有限,已经无法支撑苏宁业务的快速发展。同时,单数据中心在高可用上存在不足,一旦数据中心发生故障,会导致业务受损,用户访问中断,带来严重的影响。针对以上问题,苏宁规划建设多数据中心解决方案迫在眉睫。
上一篇《分布式系统关注点——初识「高可用」》我们对「高可用」有了一个初步认识,其中认为「负载均衡」是「高可用」的核心工作。那么,本篇将通过图文并茂的方式,来描述出每一种负载均衡策略的完整样貌。
EdgeCluster实现了合并回源,对于某一路流,不管有多少客户端播放,EdgeServer都只会从OriginServer取一路流,这样可以通过扩展EdgeCluster来增加支持的播放能力,也就是CDN网络具备的重要能力:高并发。
当发现目标站点存在CDN防护的时候,我们会尝试通过查找站点的真实IP,从而绕过CDN防护。
鱼羊 丰色 发自 凹非寺 量子位 | 公众号 QbitAI 一个小小字符“0”,竟引得B站全面崩溃。 不知你是否还记得那一夜,B站“大楼停电”、“服务器爆炸”、“程序员删库跑路”的彻夜狂欢。(手动狗头) 时隔一年,背后“真凶”现在终于被阿B披露出来—— 没想到吧,就是这么简单几行代码,直接干趴B站两三个小时,搞得B站程序员彻夜无眠头发狂掉。 你可能会问,这不就是个普普通通用来求最大公约数的函数吗,怎么就有如此大的威力? 背后一桩桩一件件,归根结底其实就一句话:0,它真的不兴除啊。 具体详情,咱们还是一
在系统生命周期中, 免不了要做升级部署, 对于关键服务, 我们应该能做到不停服务完成升级。另外服务的SLA标准一般都要在四个9以上所以对于优雅停服的需要就十分有必要了。
而在DNS解析过程中,如果要访问的网站名为:”baidu.com”,客户端首先会在本机的hosts文件和hosts缓存中查找该域名对应的IP地址;如果本机中没有此信息,则会到我们的本地DNS进行询问该域名对应的IP地址;如果本地DNS中仍然没有该域名的IP信息时,则会由本地DNS依次向根DNS、顶级域DNS、权威DNS进行询问,最终本地DNS将IP地址发送给客户端。客户端通过IP地址向远程的源站服务器发出HTTP请求并获取相应的数据内容。
本文主要针对中小型互联网公司,特别适用于手机APP或者pc的后台架构,基本可以支撑5万日活。本文会对可能用到的相关技术进行技术选型的说明,以及技术的架构介绍。
小白近期读到的很好的科普文章,讲解通俗,小白大四的时候做过一些和通信协议相关的东西,觉得如果早点阅读会更容易理解。文章内容较长,建议收藏!
就如图中所示,真经所藏之处,在于云端。佛祖所管辖之下,有四个区域Region,称为四大部洲, 一是东胜神洲,二是南赡部洲,三是西牛贺洲,四是北俱卢洲。
上面的架构图并没有具体说明SLB是什么,实际上上面的架构图翻译成下面这种看起来是不是很熟悉。
1、运维自动化发展 运维学习和发展的一个线路: 1.搭建服务(部署并运行起来) 2.用好服务(监控、管理、优化) 3.自动化(服务直接的关联和协同工作) 4.产品设计(如何设计一个运维系统) -----当下云计算的核心竞争力是运维! 系统架构师(偏管理):网络 系统 数据库 开发 云计算 自动化 运维管理 服务管理 项目管理 测试 业务 -----专注于某一领域 2、运维自动化发展 运维工作内容分类: 监控运维(7x24运维值班、故障处理) 应用运维(业务熟悉、服务部署、
互联网常见的高可用手段。比如服务冗余部署、异步化设计、负载均衡、服务限流降级熔断、架构拆分、服务治理、分布式存储等等,今天主要是一起聊下,多机房部署的灾备架构模式,来确保服务的高可用。
之前发布了一篇文章《企业安全体系架构分析:开发安全架构之可用性架构》,其中粗略的讲解了一下可用性架构的设计理念,应读者要求,这篇文章将深入讲解什么是可用性架构。
1.1 用户消费的数据远大于生产的数据(热卖商品、热点新闻、热点评论、明星直播)。
作者简介 本文由携程技术中心框架研发部吴其敏、王兴朝,技术保障中心高峻、王潇俊、陈劼联合撰写。 作为国内最大的OTA公司,携程为数以亿计的海内外用户提供优质的旅游产品及服务。2014年底携程技术中心的框架、系统和运维团队共同启动了架构改造项目,历时2年,涉及所有业务线。本文回顾了携程在整个技术架构改造过程中的一些实践和收获。 本篇为该分享的下篇,上篇请戳: 携程第四代架构探秘之运维基础架构升级(上) 弹性路由(SLB) 携程部署架构采用的是单机多应用,每台服务器上部署了很多个应用。这些应用不一定存在紧密内联
Nacos集群的搭建时要注意:1.xx 版本和 2.xx 版本有区别。从2.0开始Nacos使用了 gRPC ,需要开放额外的端口。我就遇到了 各个 Nacos 节点无法互相复制,注册的服务不一致的情况。
集群模式:一般指的是通过负载均衡的组件将两台或两台以上搭建成一个集群方式,通过轮训或权重方式进行分配到具体的机器;
用户拟在运营商租用了多台的服务器,都为提供业务交易查询的web服务器。用户提出准备使用自购的dns服务进行单个域名的多个ip地址设置,已完成业务交易查询的web服务器的负载均衡。粗一听,好像挺完美的方案,但实际不可行。
疫情初期某地政府决定发放一批免费口罩面向该市市民,该市市民均可免费预约领取,预约时间为早上9点-12点,因此该场景为限时抢购类型场景,会面临非常大的定时超大流量超大并发问题,在该项目的落地过程中,涉及的架构演变,做了一些记录和思考。
背景 CVM CDN https://cloud.tencent.com/act?from=10680 https://cloud.tencent.com/act/season?from=14065
title: "2020-07-23-kubernetes集群使用腾讯云cbs块存储"
什么是负载均衡呢?用户输入的流量通过负载均衡器按照某种负载均衡算法把流量均匀地分散到后端的多个服务器上,接收到请求的服务器可以独立的响应请求,达到负载分担的目的。从应用场景上来说,常见的负载均衡模型有全局负载均衡和集群内负载均衡,从产品形态角度来说,又可以分为硬件负载均衡和软件负载均衡。
如上最左侧便是主要流量的来源入口,首先就要限制的地方就是slb节点的income流量。
出品 | OSC开源社区(ID:oschina2013) 2023 年 3 月 5 日晚 20:20 左右,许多网友表示在使用 B 站时,手机和电脑端都无法访问视频详情页,且手机端无法查看收藏夹与历史记录。 还有网友表示,首页能够正常加载,但全部是繁体字。 B 站上一次大规模崩溃是 2021 年 7 月 13 日,被成为「713 事故」,曾被反复拉出来“鞭尸”。 B 站技术团队在 2022 年 7 月 12 日,针对「713 事故」发了一篇技术解析的长文:2021.07.13 我们是这样崩的 202
如上最左侧便是主要流量的来源入口,首先就要限制的地方就是slb节点的income流量
本来这个公众号的交流消息中间件相关的技术的。十月去上海参加了QCon,第一次参加这样的技术会议,感受挺多的,所以整理一下自己的一些想法接公众号和大家交流一下。
1. CDN 简介 ---- CDN 的全称是 Content Delivery Network,即内容分发网络。 CDN 是构建在网络之上的内容分发网络。 CDN 使用户就近获取所需内容,降低网络拥
领取专属 10元无门槛券
手把手带您无忧上云