首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Meta AI网络架构前传:RoCEv2在Llama 3万卡集群中的失效与救赎

Meta AI网络架构前传:RoCEv2在Llama 3万卡集群中的失效与救赎

作者头像
AGI小咖
发布2025-12-22 11:40:41
发布2025-12-22 11:40:41
510
举报

AGI小咖

"作为全球网络创新佼佼者,Meta为支撑Llama 3(24k H100)及未来“吉瓦特”级超大规模AI训练集群,完成了从“适配”到“重构”的架构演进。“AGI小咖”基于Meta官方核心论文、工程博客及OCP演讲等一手权威资料创作本系列文章。

作为本系列首作——本文深度复盘传统RoCEv2在AI“低熵、突发、大象流”下的失效难题,详述了Meta在万卡训练集群实战中的全链路工程优化:涵盖从星型到三层Clos的拓扑变革,从E-ECMP到集中式TE流量工程的路由迭代,以及从DCQCN失效到接收端驱动流控的突破。这些宝贵的“填坑”经验成为下一代网络架构的“原型”和“试验场”,加速定制化DSF与开放式NSF的诞生。"

作为Facebook和Instagram的母公司,Meta一直是全球数据中心网络创新的佼佼者,为了支撑像Llama 3(24000张GPU)乃至未来“吉瓦特”级的超大规模AI训练,Meta AI集群网络架构正经历着一系列技术演进和架构变革。

接下来我们严格基于Meta官方发布的核心论文、工程博客、OCP峰会演讲等一手权威资料为参考,看看Meta工程师们最早都踩了哪些“坑”,然后深入剖析Meta的两代核心网络架构:一个是高度定制的DSF,另一个是拥抱开放的NSF

本文作为这个Meta系列的“前传”,我们将以Meta在Llama 3(24K H100集群)上的早期实践为蓝本深入复盘一个核心问题:为什么传统的RoCEv2网络一碰到AI训练特有的“低熵”、“突发性”和“大象流”流量时就会“失灵”?

同时,本文将详细阐述Meta在“适配”阶段所做的全部工程优化(即“打补丁”)——从网络拓扑(星型 -> 三层Clos)、路由技术(静态绑定 -> E-ECMP -> 集中式TE)到拥塞控制(DCQCN失效 -> 接收端驱动流控)的完整路径。

正是这些宝贵的实战经验成为下一代网络架构的“原型”和“试验场”,最终诞生了硬件卸载彻底解决性能瓶颈的下一代网络架构——DSF和NSF

PART 01

RoCEv2的核心挑战:AI流量特征与ECMP失效

随着AI训练集群规模的不断扩大,计算能力和网络拓扑结构的扩展性挑战引出了一个核心问题:如何高效地平衡和路由海量训练流量?

具体而言,人工智能训练工作负载具有低熵、突发性、大象流量的三大核心挑战性的特点,Meta最初考虑了被广泛应用的ECMP算法——基于五元组(源IP地址、目标IP地址、源UDP端口、目标UDP端口和协议)的哈希值随机分配流,在AI训练流量低熵场景下,ECMP算法性能表现极差,为了阶段性缓解流量冲突,Meta曾采用将RTSW的上下行带宽收敛比调整为2:1的成本昂贵方案作为短期过渡缓解措施。

PART 02

应对Llama 3万卡集群的架构演进

随着Llama 3的到来,Meta的AI集群规模达到了前所未有的高度(24K H100 GPU ),Meta的AI集群网络也从早期的星型网络向多级CLOS架构演进。

2.1 拓扑演进:从星型到多级Clos

2.1.1 早期星型拓扑 (已淘汰):

Meta的后端网络经历了多次转型,最初GPU集群采用简单的星型拓扑结构,几个AI机架连接到一个运行RoCEv1协议的中央以太网交换机上,这种架构在GPU规模和交换机冗余方面存在明显的局限性,因此在短暂的过渡后迅速切换到全新的基于RoCEv2的CLOS架构上。

2.1.2 AI Zone (两级Clos拓扑):

Meta为AI机架设计了一种两级Clos拓扑结构(AI Zone):

  • RTSW (Leaf): 使用铜缆DAC线缆为机架内的GPU提供纵向扩展(Scale-Up)连接;
  • CTSW (Spine): 使用具有深度缓冲区CTSW交换机提供集群中所有机架之间的横向扩展(Scale-Out)连接;
  • ATSW(Super-Spine):用于连接数据中心楼宇中的各个CTSW,将RoCE的应用范围扩展到单个AI Zone之外,以支持Llama等超大规模LLM训练。

图 1:Meta 三层Clos网络拓扑 (ATSW/CTSW/RTSW)

为了缓解跨AI区域流量的性能瓶颈,Meta改进了训练作业调度器(调度器通过学习GPU服务器在逻辑拓扑中的位置来推荐排序分配方案),试图将训练节点划分到不同的AI区域时找到一个“最小分割点”,从而减少跨AI区域的流量和缩短整体完成时间。

2.2 工程原则:前后端物理网络隔离

如图2所示,训练集群依赖于两个独立的网络:

  • 前端网络 (FE):用于数据摄取、检查点(Checkpointing)和日志记录等任务;
  • 后端网络 (BE):专用于GPU间的训练通信(RoCEv2协议,东西向RDMA流量);

图 2:前后端网络物理隔离及AI机架连接示意

PART 03

路由策略:“适配”模式下的工程优化路径

为解决ECMP失效问题,Meta经历了四个阶段的“修修补补”的艰难技术迭代:

3.1 静态路径绑定 (Path Pinning)

  • 解决方案: 曾尝试根据目标“切片”(RTSW下行链路索引)进行静态路由,试图通过软件预先规划路径来消除不确定性。
  • 方案局限性: 方案在理想状态下有效,但作业分配不均(碎片化)会导致特定RTSW上行链路拥塞和性能下降超过30%

3.2 增强型ECMP (E-ECMP) 与 QP扩展

  • 解决方案:人为地为网络流创造更多的熵——配置交换机执行增强型 ECMP (E-ECMP),利用交换机 ASIC的UDF功能对RoCE 数据包的目标QP字段进行额外的哈希运算来人为的增加熵值,生产环境测试表明,与未进行QP扩展的基线 ECMP相比,对于AllReduce 集体处理,E-ECMP 结合QP扩展使性能提升高达 40%。
  • 方案局限性:哈希算法固有的概率特性导致无法从根本上解决万卡集群场景下的“长尾延迟”问题,另外,根据工作负载类型定制QP扩展因子也在一定程度上增加了运维的复杂性。

3.3 集中式流量工程

Llama 1和Llama 2的千卡集群训练时代,Meta面临的核心挑战在于AI训练集合通信“大象流”(如AIl-Reduce)表现出的低熵、突发性流量、大象流等三大挑战,Meta采用了与传统TE流量工程的思路来解决端到端流量的精细化调度。

  • 解决方案:
    • 全局网络拓扑感知:TE控制器实时通过Telemetry采集全网链路状态及拓扑快照信息;
    • 构建需求矩阵:结合训练作业的集合通信模式预测并构建精确的流量需求矩阵;
    • 计算最优最转发路径:利用全局算法计算出符合特定约束条件的无冲突最优转发路径;
    • 转发表项下发:将计算出来的最优转发路径写入RTSW (Leaf)的硬件转发表中,指导目标调度流量转发到最优路径上。
  • 方案局限性:随着AI训练集群从千卡向万卡(如Llama 3采用24K H100 GPU)迈进,集中式TE流量工程解决方案的弊端凸显:
    • 时延不匹配:TE控制器的秒级决策闭环与AI训练流量所要求的微秒级响应不匹配;
    • 可拓展性差:全局路径计算复杂度随节点规模呈超线性增长,难以在有限时间内完成万卡级拓扑的最优转发计算和下发;
    • 运维复杂度高:后期维持一个全网级、高可用的中央控制平面的工程开销的技术投入产出比(ROI)严重失衡。

当然集中式TE流量工程实践解决方案也为Meta下一代硬件卸载实现高性能确定性调度网络(DSF)提供了宝贵的工程实践经验教训。

3.4 Flowlet交换 (Flowlet Switching)

  • 解决方案: 在原有基于RoCEv2的CLOS架构上迭代、适配的基础上,Meta逐渐摸索了利用交换机硬件在微秒级时间尺度上感知链路负载、动态将数据流切分为更细粒度的Flowlet(流片)进行自适应转发的更成熟方案。

正是E-ECMP无法应对动态拥塞的本质缺陷,催生了在硬件层面实现真正的、微秒级的动态负载均衡的构想,这也成为Meta下一代NSF(非调度网络)架构里自适应路由(Adaptive Routing)的雏形。

Meta的新一代交换机平台(如基于Broadcom Tomahawk 5 ASIC的Minipack3)已经开始支持ARS (Adaptive Routing & Selection) 功能,这正是实现NSF架构的关键硬件基础,本系列后续篇章将继续为您分享Meta下一代NSF(非调度网络)。

PART 04

拥塞控制:从DCQCN失效到接收端流控

除了路由层面以外,在拥塞控制领域,Meta同样经历了一次颠覆性的认知升级。

4.1 DCQCN的彻底失效:

Meta发现RoCE的标准协议“感知-反馈-降速”的控制环路存在固有的物理滞后性 (RTT Latency),原有基于ECN阈值调优技术也陷入两难:

  • 阈值过严:队列刚有堆积就标记ECN,导致网络利用率不足,严重损害集合通信性能。
  • 阈值过宽:导致交换机缓存被大量占用,频繁触发PFC(Priority-based Flow Control)暂停帧,极易引发PFC风暴和死锁。

4.2 接收端驱动流量准入:

Meta最终选择放弃在传输层进行被动、反应式的拥塞控制,转而在应用层(即集合通信库NCCL)实现一种主动的、接收端驱动的精确流量准入,实现了比传统网络层拥塞控制更高效、更贴合业务场景的端到端流量管理,核心工作流程 (两阶段拷贝架构) 如下:

  1. 发送端数据准备: 待发送的数据首先从GPU的计算缓冲区被拷贝到主机内存中的一个特定区域,称为“通道缓冲区(Channel Buffer)”
  2. 接收端发起: 只有当接收端确认自己有能力处理数据时,才会向发送端发送一个“Clear-to-Send (CTS)”控制包(意为“准许发送”)。
  3. 发送端响应: 发送端在收到CTS包后,才会通过 RDMA write 操作将通道缓冲区中的数据写入网络,发往接收端。

图 3:接收端驱动流量准入 (Receiver-Driven) 工作流

隐式的端到端流量控制效果:这种机制隐式的端到端流量控制效果体现在:接收端根据自身Channel Buffer的可用状态来决定何时发送CTS,如果网络拥塞或接收端处理慢,CTS包的发送速率自然会放缓,从而直接降低发送端注入数据的速率。最终,拥塞压力被及时地反馈到了发送源头,将拥塞管理的决策权交给了最了解自身状态的接收端。

当前方案虽然高效,但终究依赖于端侧软件的复杂调度,存在一定的延迟和CPU开销。因此,后来Meta将这套通过集合通信库实现的“软件CTS”机制在DSF(分布式调度网络) 架构中实现了“硬件化”。DSF本质上采用了VOQ (Virtual Output Queuing) 和基于信元(Credit-based)的拥塞控制系统,将“软件CTS信令”演变成了交换机芯片级的 “信用 (Credit)”,实现了更低延迟的无损调度网络。下一篇章中关于DSF网络中我们继续为您揭晓。

PART 05

总结

通过在拓扑、路由和传输层的一系列深入探索,Meta为大规模AI训练构建了一个稳定、高性能的RoCEv2网络,这段Meta在Llama 3集群(24K H100)实战经验成为下一代网络架构(通过硬件卸载彻底解决性能瓶颈的下一代网络架构——DSF和NSF)的“原型”和“试验场”,也留下了宝贵经验和教训:面对强确定性的AI负载,传统的概率性哈希(如ECMP)和被动拥塞控制已难以为继。

这正是Meta决定推倒重来从零开始设计新一代AI训练网络架构的原动力,接下来Meta系列篇章中我们将深入剖析通过解耦设计和硬件卸载彻底解决性能瓶颈的终极答案——DSF(定制架构)与NSF(开放架构)。敬请期待!

三大超节点:昇腾384 VS 阿里磐久AL128 VS NVIDIA GB200 NVL72,网工视角,谁主沉浮? 博通一统以太网江湖阳谋:SUE一超多强(字节Ethlink、NVLink与UALink)?

媲美英伟达下一代GPU Scale-up:字节版NVLink重塑MegaScale万卡集群网络?

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-11-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AGI小咖 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档