前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >大型游戏平台 Roblox 通过蜂窝基础设施架构来改进大规模用户游戏体验

大型游戏平台 Roblox 通过蜂窝基础设施架构来改进大规模用户游戏体验

作者头像
深度学习与Python
发布于 2024-01-11 07:36:47
发布于 2024-01-11 07:36:47
3370
举报

作者 | Matt Saunders

译者 | 明知山

策划 | 丁晓昀

在线游戏平台和创作系统 Roblox 详细介绍了他们如何提升其基础设施的效率和弹性,满足 7 千多万活跃用户参与沉浸式游戏体验的需求。这篇博 深入探讨了 Roblox 如何实现可靠性承诺、如何应对 2021 年的重大故障以及如何通过持续转型来提升基础设施的效率和弹性。

2021 年 10 月,Roblox 遭遇了持续 73 小时的系统范围的故障,这是由一个数据中心的一个小问题引发的,然后迅速演变成大规模故障。通过事故后分析,团队加大了巩固其基础设施的工作,以应对各种故障因素,如流量峰值、天气条件、硬件故障、软件错误和人为失误。重点是防止单个组件的问题扩散到整个系统,并确保网络或用户持续重试操作不会造成与负载相关的级联故障。

为了应对类似 2021 年 10 月的故障,Roblox 最初在不同区域的数据中心采用主备方式构建了基础设施的副本。这意味着团队可以在主数据中心出现重大故障时将整个系统切换到备份基础设施上。这提供了一种应急的弹性形式,但他们的长期目标是从主备数据中心转变为双活,让两个数据中心同时处理工作负载,实现更高的可靠性和几乎即时的故障切换。

Roblox 还实现了蜂窝基础设施架构,在数据中心内建立强大的“防爆墙”,防止发生整个数据中心范围的故障。蜂窝蜂窝单元或机器集群在单个蜂窝单元内提供冗余和故障控制。Roblox 的目标是将所有服务迁移到蜂窝单元中,以此来增强弹性和高效的工作负载管理,整个蜂窝单元(每个蜂窝单元可能包含 1400 台服务器)可以在必要时进行修复或完全重新配置。这个过程需要确保一致性,要求服务进行容器化,并实现基础设施即代码的理念。Roblox 新的部署工具会自动确保服务跨蜂窝单元分布,从而使服务所有者不必考虑复制问题。

Roblox 将蜂窝单元作为一种防火门,可以将故障限制在一个蜂窝单元内。目标是使蜂窝单元变得可互换,以便在出现问题时更快地恢复。然而,管理蜂窝单元之间的通信存在一些挑战,因为需要防止“死亡查询”,即重试查询会导致级联故障。他们正在部署短期解决方案,例如将计算服务的副本部署到每个计算蜂窝单元中,并在蜂窝单元间平衡流量,以此来缓解这种情况。他们的长期计划包括实现用于服务发现的下一代服务网格以及将依赖请求定向到与原始调用方相同蜂窝单元的方法。这将降低故障从一个蜂窝单元传播到另一个蜂窝单元的风险。70% 的后端流量现在由蜂窝单元提供,他们的最终目标是达到 100%。近 3 万台服务器正在运行蜂窝单元,但这还不到总服务器数量的 10%。

在不中断用户的情况下迁移一个非常繁忙的在线平台的复杂性是巨大的。由于没有大量的资金购买全新的服务器来运行蜂窝基础设施,Roblox 创造性地利用了一小部分备用机器,并策略性地建立了新的蜂窝单元,逐步迁移工作负载,然后重新使用已释放的机器来进行下一次迁移。这在不同的数据中心之间造成了一些理想的蜂窝单元碎片,增加了蜂窝单元内的弹性。Roblox 预计将于 2025 年完成迁移,他们需要强大的工具来部署均衡的服务,并且不会干扰到用户,他们还需要进行详尽的测试,确保在蜂窝架构中运行的新服务的兼容性。

Roblox 的努力取得了成功,但针对蜂窝单元的工作仍在进行中。他们致力于在不断扩展规模的过程中提高效率和弹性。他们的主要成就包括建立第二个数据中心,在主备数据中心创建蜂窝单元,将超过 70%的后端服务流量迁移到蜂窝单元中,以及建立了实现一致性的要求。2023 年 9 月,Roblox 在数据中心启动了双活实验,增强了可靠性并最大限度地缩短故障转移时间。这些成果让他们获得了一个实现全面双活基础设施的计划,确定了改进系统设计的模式。他们一直致力于提升效率和弹性,设想让平台成为数百万用户可靠、高性能的实用工具,并实现实时连接十亿人。

他们的基础设施现在运行在近 14 万 5 千台服务器上(大部分在本地私有混合云中心)——两年内增加了三倍。Roblox 目前正在努力改造基础设施,使平台更具弹性,更加高效,为数百万用户提供服务,为持续的增长和创新奠定基础。

查看英文原文

https://www.infoq.com/news/2024/01/roblox-cellular-infrastructure/

声明:本文为 InfoQ 翻译,未经许可禁止转载。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-01-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 InfoQ 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
腾讯网关TGW:用户无感知快速迁移及故障自愈能力 | USENIX ATC '25
腾讯网关团队与清华大学联合撰写的学术论文《TGW: Operating an Efficient and Resilient Cloud Gateway at Scale》(《腾讯网关TGW:一种面向大规模场景的高效弹性云网关架构》)成功入选2025年度USENIX年度技术会议(即USENIX ATC '25)。该论文系统阐述了已在腾讯生产环境稳定运行并持续迭代数代的TGW网关架构,重点展示了其用户无感知的无损快速迁移能力、故障自愈能力及高精度故障定位系统。此项研究成果标志着腾讯公司与清华大学、中国人民大学联合共建的云网络技术实验室在云网关领域取得的又一重大突破。以下将针对论文核心技术创新点进行深度解析。
腾讯云开发者
2025/05/21
1300
腾讯网关TGW:用户无感知快速迁移及故障自愈能力 | USENIX ATC '25
单元化架构在金融行业的最佳实践
近些年单元化架构在构建多地数据中心,以及如何应对海量请求高并发、低延时的场景中被频繁提及和讨论。单元化架构其实主要解决的是系统扩容、多数据中心容灾、异地访问等方面出现的问题,本文将从单元化概念及优劣势、如何基于TSF建设单元化架构、某国有大行的单元化落地实践三方面进行分享。
腾讯云中间件团队
2021/10/20
5K0
什么是不可变基础设施
在传统的可变服务器基础设施中,服务器会不断更新和修改。使用这类基础设施的工程师和管理员可以SSH到他们的服务器,手动升级或降级软件包版本,逐个服务器调整配置文件,并直接将新代码部署到现有服务器上。换句话说,这些服务器是可变的;它们可以在创建后进行更改。由可变服务器组成的基础设施本身可以称为可变的、传统的或手工的。
大漠天涯
2024/04/02
2760
GPU 集群规模从 4K 飙升至 24K,Meta 如何引领大规模语言模型训练突破
在我们继续将 AI 研究和开发的重点放在解决一系列日益复杂的问题上时,我们经历的最重大和最具挑战性的转变之一是训练大型语言模型(LLM)所需的巨大计算规模。
深度学习与Python
2024/06/27
2160
GPU 集群规模从 4K 飙升至 24K,Meta 如何引领大规模语言模型训练突破
蜂窝架构概述:弹性与容错的新模式
引言 在当今数字化飞速发展的时代,软件架构的设计理念正经历着前所未有的深刻变革。传统的单体架构因其固有的局限性,如扩展性差、维护成本高、容错性不足等问题,已难以
杨振涛
2024/12/25
2380
蜂窝架构概述:弹性与容错的新模式
从单一到多活,麦当劳中国的数据库架构迁移实战
过去十余年,互联网行业通过 IT 基础设施的革新,实现了从单一数据库到多活数据库架构的跨越,显著提升了业务的高可用性和容灾能力。如今,餐饮行业也沿着这一路径,开始向多活数据库架构迁移。
深度学习与Python
2025/04/18
1220
从单一到多活,麦当劳中国的数据库架构迁移实战
使用Twine进行高效,可靠的大规模集群管理
导语:Twine是Facebook的IaaS层,可以说绝大部分的Facebook服务器都运行在这个系统下面。本篇文章介绍了Facebook使用Twine进行高效,可靠的大规模集群管理的实践经验。
灵雀云
2021/03/16
6430
撤出云平台六年后,我们做了一次“断网测试”
把时间线拨到 2021 年 11 月 18 日星期四,Dropbox 服务一切如常。用户没有感觉到任何异样,就如同无数个岁月静好的日子。但真是这样吗?当然不是,那天下午五点,一群 Dropbox 员工在 Zoom 频道里吵作一团,因为大家突然接到命令,要求把圣何塞数据中心跟 Dropbox 网络直接断开。
深度学习与Python
2022/06/11
4500
撤出云平台六年后,我们做了一次“断网测试”
蚂蚁金服11.11:支付宝和蚂蚁花呗的技术架构及实践
每年“双11”都是一场电商盛会,消费者狂欢日。今年双11的意义尤为重大,它已经发展成为全世界电商和消费者都参与进来的盛宴。而对技术人员来说,双十一无疑已经成为一场大考,考量的角度是整体架构、基础中间件、运维工具、人员等。
Java高级架构
2018/08/16
4.5K0
蚂蚁金服11.11:支付宝和蚂蚁花呗的技术架构及实践
信创基础设施迎来“升级潮”,可持续性架构成关键技术
随着“数字中国”战略的明确,数字化转型进程加速,信创产业成为国家战略布局的重点领域之一,是缩短科技发展周期以及国内外科技差距的一剂良方。
科技云报道
2023/02/14
1.2K0
京东自建数据中心核心技术解密——基础设施篇
京东第一个自建数据中心是位于宿迁的京东云华东数据中心,整体由4个模块和1栋综合大楼组成,总占地面积将近6万平方米,总投资30亿元。 可以提供20万台的服务器安装和运营能力,存储能力不小于32EB,计算
京东技术
2018/04/10
3K0
京东自建数据中心核心技术解密——基础设施篇
数据基础设施建设"四宗罪"
近年来,中国数字经济一直保持着高速发展。2020年,我国数字经济规模占GDP比重已近四成。根据IDC预测,全球数据总量将会从2020年的50ZB快速增长到2025年的175ZB。届时,中国将成为全球最大数据圈,占全球数据圈的27.8%,超过美国,超过欧洲、中东及非洲数据圈的总和。 数字经济时代,数据作为基础性资源和战略性资源,对于各行各业的发展和国家整体治理水平的提升,都将产生深远的影响。2020年4月,《中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见》公布,中央首次明确“数据成为继土地、
云头条
2022/03/18
3130
企业级 IP 电话系统高可用架构设计详解
设计高可用架构需要合理部署以下核心组件,每个组件的高可用性都直接影响系统的整体表现:
杜金房
2025/03/27
2610
企业级 IP 电话系统高可用架构设计详解
【“微软蓝屏”事件暴露了网络安全哪些问题?】建设安全稳固的网络基础设施
近日,一次由微软视窗系统软件更新引发的全球性“微软蓝屏”事件,不仅成为科技领域的热点新闻,更是一次对全球IT基础设施韧性与安全性的深刻检验。这次事件,源于美国电脑安全技术公司“众击”提供的一个带有“缺陷”的软件更新,它如同一颗隐形炸弹,在全球范围内引爆,导致近850万台设备遭遇故障,横跨航空、医疗、传媒等众多关键行业,甚至造成美国超过2.3万架次航班延误,其影响之广令人震惊。面对如此大规模的系统中断,网络安全与系统稳定性的讨论再次被推上风口浪尖。如何构建更加稳固和安全的网络环境?在网络安全和系统稳定性方面我们仍面临着严峻考验。快来分享你的观点吧!不论是问题解析、建议提出还是展示你所在领域中预防类似事件的有效实践,每一篇真知灼见都是对网络安全领域的宝贵贡献。
Francek Chen
2025/01/23
1130
【“微软蓝屏”事件暴露了网络安全哪些问题?】建设安全稳固的网络基础设施
Uber 实时推送平台实践:gRPC 推动基础设施的发展
Uber 的业务遍布全球,每天需要处理全球数百万人次的出行,实时性对 Uber 而言非常重要。在一次行程中,多个参与者可以修改和查看正在进行中的行程状态,这需要实时更新。无论是取车时间、到达时间、路线还是在打开应用时附近的司机数量,所有参与者和应用都必须保持实时信息同步。本文介绍了 Uber 如何通过轮询保持信息实时更新以及基于 gRPC 双向流协议构建应用。
深度学习与Python
2021/02/05
7760
容灾的架构分析和容灾选择策略
容灾半径是衡量容灾方案所能承受的灾难影响范围的指标。不同灾难的影响范围是不同的,而距离也会影响到容灾技术的选择。容灾中心的架构按照源备端之间的距离,可分为本地容灾、同城双活、两地三中心。
删库跑路886
2022/04/29
3K0
全解Google(谷歌)基础设施架构安全设计
谷歌的技术基础设施共同构建了搜索、邮件(Gmail)、照片等普通用户系统和G Suite 、谷歌云存储平台等企业系统,是谷歌数据中心的关键,是整个谷歌网络服务赖以存在的安全基础。 FreeBuf在原文基础上,针对谷歌技术基础设施的安全设计作了简要分析与介绍,这些技术基础设施为谷歌全球信息系统提供了一系列安全防护,它们包括运行安全服务、终端用户数据安全存储、服务安全通信、用户安全通信和运维安全管理等。 在介绍中,我们将围绕谷歌数据中心的物理安全、整体软硬件基础安全、技术限制和操作的运维安全进行逐层描述。
FB客服
2018/02/09
3.2K0
全解Google(谷歌)基础设施架构安全设计
云单元架构,如何赋能数字化转型呢?
👆点击“博文视点Broadview”,获取更多书讯 01 为什么需要云单元架构 云单元架构是在微服务架构上发展起来的解决 IT 系统扩展性及业务连续性的技术架构,它并不是随着微服务架构一起诞生的,而是 IT 系统发展到一定规模且对业务连续性有高要求的情况下需要具备的技术能力。 从集中式架构到分布式架构 传统的集中式 IT 系统架构如下图所示,由小型机(比如 IBM 的 P 系列等)、存储设备(EMC 的 VNX 系列等)、硬件负载均衡设备(典型的比如 F5)等基础设施构成,这些硬件设备具备很强的稳定性,
博文视点Broadview
2023/04/12
3690
云单元架构,如何赋能数字化转型呢?
大会推荐 I ArchSummit:数字化转型的云迁移之路,永辉超市历时2年的经验总结
数字化转型并非一蹴而就的事情,对于企业来说,它是一场马拉松,而在这场竞赛中,很多前行者的经验值得借鉴。为了让大家对数字化转型有更多的了解,我们邀请了永辉超市高级架构师张明来为大家分享永辉超市的混合云建设与运维,在正式分享前,我们采访了张明,本文为其采访整理,期待对你有所启发。
ThoughtWorks
2021/12/01
7490
Slack 蜂窝架构迁移:背后的技术策略与挑战
近年来,蜂窝架构(Cell-Based Architecture)作为一种增加冗余和有效限制站点故障影响范围的方式,在大型的在线服务中越来越流行。为了实现这些目标,在过去的一年半里,我们将 Slack 最关键的面向用户的服务从单体架构迁移到了基于蜂窝的架构。在本系列文章中,我们将解释我们为什么要进行大规模迁移、介绍蜂窝拓扑设计以及我们在此过程中所做出的工程技术权衡,并讨论我们成功对许多相连接的服务进行深度改造所采用的策略。
深度学习与Python
2023/09/18
3290
Slack 蜂窝架构迁移:背后的技术策略与挑战
推荐阅读
相关推荐
腾讯网关TGW:用户无感知快速迁移及故障自愈能力 | USENIX ATC '25
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档