
AGI小咖
"作为全球网络创新佼佼者,Meta为支撑Llama 3(24k H100)及未来“吉瓦特”级超大规模AI训练集群,完成了从“适配”到“重构”的架构演进。“AGI小咖”基于Meta官方核心论文、工程博客及OCP演讲等一手权威资料创作本系列文章。
作为本系列首作——本文深度复盘传统RoCEv2在AI“低熵、突发、大象流”下的失效难题,详述了Meta在万卡训练集群实战中的全链路工程优化:涵盖从星型到三层Clos的拓扑变革,从E-ECMP到集中式TE流量工程的路由迭代,以及从DCQCN失效到接收端驱动流控的突破。这些宝贵的“填坑”经验成为下一代网络架构的“原型”和“试验场”,加速定制化DSF与开放式NSF的诞生。"
作为Facebook和Instagram的母公司,Meta一直是全球数据中心网络创新的佼佼者,为了支撑像Llama 3(24000张GPU)乃至未来“吉瓦特”级的超大规模AI训练,Meta AI集群网络架构正经历着一系列技术演进和架构变革。
接下来我们严格基于Meta官方发布的核心论文、工程博客、OCP峰会演讲等一手权威资料为参考,看看Meta工程师们最早都踩了哪些“坑”,然后深入剖析Meta的两代核心网络架构:一个是高度定制的DSF,另一个是拥抱开放的NSF。
本文作为这个Meta系列的“前传”,我们将以Meta在Llama 3(24K H100集群)上的早期实践为蓝本深入复盘一个核心问题:为什么传统的RoCEv2网络一碰到AI训练特有的“低熵”、“突发性”和“大象流”流量时就会“失灵”?
同时,本文将详细阐述Meta在“适配”阶段所做的全部工程优化(即“打补丁”)——从网络拓扑(星型 -> 三层Clos)、路由技术(静态绑定 -> E-ECMP -> 集中式TE)到拥塞控制(DCQCN失效 -> 接收端驱动流控)的完整路径。
正是这些宝贵的实战经验成为下一代网络架构的“原型”和“试验场”,最终诞生了硬件卸载彻底解决性能瓶颈的下一代网络架构——DSF和NSF。
PART 01
RoCEv2的核心挑战:AI流量特征与ECMP失效
随着AI训练集群规模的不断扩大,计算能力和网络拓扑结构的扩展性挑战引出了一个核心问题:如何高效地平衡和路由海量训练流量?
具体而言,人工智能训练工作负载具有低熵、突发性、大象流量的三大核心挑战性的特点,Meta最初考虑了被广泛应用的ECMP算法——基于五元组(源IP地址、目标IP地址、源UDP端口、目标UDP端口和协议)的哈希值随机分配流,在AI训练流量低熵场景下,ECMP算法性能表现极差,为了阶段性缓解流量冲突,Meta曾采用将RTSW的上下行带宽收敛比调整为2:1的成本昂贵方案作为短期过渡缓解措施。
PART 02
应对Llama 3万卡集群的架构演进
随着Llama 3的到来,Meta的AI集群规模达到了前所未有的高度(24K H100 GPU ),Meta的AI集群网络也从早期的星型网络向多级CLOS架构演进。
2.1 拓扑演进:从星型到多级Clos
2.1.1 早期星型拓扑 (已淘汰):
Meta的后端网络经历了多次转型,最初GPU集群采用简单的星型拓扑结构,几个AI机架连接到一个运行RoCEv1协议的中央以太网交换机上,这种架构在GPU规模和交换机冗余方面存在明显的局限性,因此在短暂的过渡后迅速切换到全新的基于RoCEv2的CLOS架构上。
2.1.2 AI Zone (两级Clos拓扑):
Meta为AI机架设计了一种两级Clos拓扑结构(AI Zone):

图 1:Meta 三层Clos网络拓扑 (ATSW/CTSW/RTSW)
为了缓解跨AI区域流量的性能瓶颈,Meta改进了训练作业调度器(调度器通过学习GPU服务器在逻辑拓扑中的位置来推荐排序分配方案),试图将训练节点划分到不同的AI区域时找到一个“最小分割点”,从而减少跨AI区域的流量和缩短整体完成时间。
2.2 工程原则:前后端物理网络隔离
如图2所示,训练集群依赖于两个独立的网络:

图 2:前后端网络物理隔离及AI机架连接示意
PART 03
路由策略:“适配”模式下的工程优化路径
为解决ECMP失效问题,Meta经历了四个阶段的“修修补补”的艰难技术迭代:
3.1 静态路径绑定 (Path Pinning)
3.2 增强型ECMP (E-ECMP) 与 QP扩展
3.3 集中式流量工程
在Llama 1和Llama 2的千卡集群训练时代,Meta面临的核心挑战在于AI训练集合通信“大象流”(如AIl-Reduce)表现出的低熵、突发性流量、大象流等三大挑战,Meta采用了与传统TE流量工程的思路来解决端到端流量的精细化调度。
当然集中式TE流量工程实践解决方案也为Meta下一代硬件卸载实现高性能确定性调度网络(DSF)提供了宝贵的工程实践经验教训。
3.4 Flowlet交换 (Flowlet Switching)
正是E-ECMP无法应对动态拥塞的本质缺陷,催生了在硬件层面实现真正的、微秒级的动态负载均衡的构想,这也成为Meta下一代NSF(非调度网络)架构里自适应路由(Adaptive Routing)的雏形。
Meta的新一代交换机平台(如基于Broadcom Tomahawk 5 ASIC的Minipack3)已经开始支持ARS (Adaptive Routing & Selection) 功能,这正是实现NSF架构的关键硬件基础,本系列后续篇章将继续为您分享Meta下一代NSF(非调度网络)。
PART 04
拥塞控制:从DCQCN失效到接收端流控
除了路由层面以外,在拥塞控制领域,Meta同样经历了一次颠覆性的认知升级。
4.1 DCQCN的彻底失效:
Meta发现RoCE的标准协议“感知-反馈-降速”的控制环路存在固有的物理滞后性 (RTT Latency),原有基于ECN阈值调优技术也陷入两难:
4.2 接收端驱动流量准入:
Meta最终选择放弃在传输层进行被动、反应式的拥塞控制,转而在应用层(即集合通信库NCCL)实现一种主动的、接收端驱动的精确流量准入,实现了比传统网络层拥塞控制更高效、更贴合业务场景的端到端流量管理,核心工作流程 (两阶段拷贝架构) 如下:

图 3:接收端驱动流量准入 (Receiver-Driven) 工作流
隐式的端到端流量控制效果:这种机制隐式的端到端流量控制效果体现在:接收端根据自身Channel Buffer的可用状态来决定何时发送CTS,如果网络拥塞或接收端处理慢,CTS包的发送速率自然会放缓,从而直接降低发送端注入数据的速率。最终,拥塞压力被及时地反馈到了发送源头,将拥塞管理的决策权交给了最了解自身状态的接收端。
当前方案虽然高效,但终究依赖于端侧软件的复杂调度,存在一定的延迟和CPU开销。因此,后来Meta将这套通过集合通信库实现的“软件CTS”机制在DSF(分布式调度网络) 架构中实现了“硬件化”。DSF本质上采用了VOQ (Virtual Output Queuing) 和基于信元(Credit-based)的拥塞控制系统,将“软件CTS信令”演变成了交换机芯片级的 “信用 (Credit)”,实现了更低延迟的无损调度网络。下一篇章中关于DSF网络中我们继续为您揭晓。
PART 05
总结
通过在拓扑、路由和传输层的一系列深入探索,Meta为大规模AI训练构建了一个稳定、高性能的RoCEv2网络,这段Meta在Llama 3集群(24K H100)实战经验成为下一代网络架构(通过硬件卸载彻底解决性能瓶颈的下一代网络架构——DSF和NSF)的“原型”和“试验场”,也留下了宝贵经验和教训:面对强确定性的AI负载,传统的概率性哈希(如ECMP)和被动拥塞控制已难以为继。
这正是Meta决定推倒重来从零开始设计新一代AI训练网络架构的原动力,接下来Meta系列篇章中我们将深入剖析通过解耦设计和硬件卸载彻底解决性能瓶颈的终极答案——DSF(定制架构)与NSF(开放架构)。敬请期待!
往
期
回
顾
三大超节点:昇腾384 VS 阿里磐久AL128 VS NVIDIA GB200 NVL72,网工视角,谁主沉浮? 博通一统以太网江湖阳谋:SUE一超多强(字节Ethlink、NVLink与UALink)?