
摘要
本文作为Meta AI网络架构系列第五篇,深度剖析Meta为支撑Llama 4训练构建的10万卡级分布式AI集群:物理层依托 ATSW汇聚层、76个正交平面与ZR/ZR+相干光模块重构互联底座,突破单体数据中心物理极限;传输层引入NCCLX通信框架,凭借Host-driven控制平面、Zero-copy数据平面及DQPLB分层流控机制,成功克服30倍跨园区长尾延迟,实现超大规模训练吞吐的线性扩展。
1
前序回顾:从Llama 3到Llama 4的架构演进之路
在《Meta AI网络架构前传:RoCEv2在Llama 3万卡集群中的失效与救赎》中,我们复盘了Meta在24kH100集群中如何通过工程手段勉强驯服了RoCEv2在“低熵、突发”流量下的失效问题。
随后在《Meta AI网络架构续集:DSF,一台“榨干”以太网物理极限的“F1赛车”,却难做“保时捷911”》中,我们解析了Meta利用深缓存专用交换芯片、双域解耦设计、信元喷射技术和VOQ+Credit硬件流控结合方案,实现了微秒级无阻塞调度。
紧接着在《Meta AI网络架构再探:NSF如何驾驭双柜NVL72超节点,重构吉瓦级AI底座?》中,我们拆解了Meta面向吉瓦级集群重构的非调度架构(NSF)——深度融合浅缓存商用以太网和定制高功率双机柜NVL72超节点,依托原生支持自适应路由与Spectrum-X端网协同机制驾驭吉瓦级AI底座。
为了打通吉瓦级算力孤岛,Meta在《Meta AI网络架构融合篇:基于10X Backbone与ZR/ZR+ 相干光模块的吉瓦级AI骨干网大动脉》中提出 10x Backbone架构,利用ZR+ 相干光模块与DC Metro环网构建了极简的点对点 (P2P) 去 DCI-BOX光电底座,配合Open/R 路由系统与集中式流量工程 (TE) ,成功重塑了AI 骨干网。
Llama 4 的训练规模迈入10万卡(100k+ GPU)量级,总电力需求直逼吉瓦(GW)级,远超全球绝大多数单一建筑的供电与散热能力。面对“能源-距离悖论”,超大规模数据中心集群的碎片化似乎成为必然,那么Meta是如何在碎片化多DC机房算力网络的物理现状基础上,在逻辑上合成一台超级计算机以支撑Llama 4训练的业务负载的,接下来我们严格基于Meta官方发布的核心论文、工程博客等一手权威资料为参考继续为您逐一分享。
2
物理拓扑重构:ATSW与多楼宇互联架构
在一个10万+ GPU集群中,跨楼光纤传输(3公里RTT)及多级交换带来了巨大的延迟挑战:跨机架延迟飙升7倍,跨AI Zone达15倍,而跨DC通信则高达30倍。这对依赖同步集合通信的分布式训练构成了严峻挑战。
为了实现多个DC集群之间逻辑统一的高性能网络,Meta引入了ATSW(Aggregation Training Switch)构建了三层CLOS拓扑,其中ATSW之间采用Full Mesh互联。

图1:Llama 4的多楼宇网络架构
2.1 网络层级演进
如图1所示,Llama 4的网络架构包含三个核心层级。为了更清晰地展示这一层级内的带宽配比,我们引入下方的详细拓扑图:

图2:基于ATSW的跨楼宇全互联拓扑
2.2 物理层实现:IP-over-DWDM与P2P架构
在跨越3公里的物理互联中,如何实现多个碎片化数据中心的互联以支撑10万卡集群Llama 4 的大规模训练需求?Meta摒弃了传统的独立波分复用设备+ROADM架构,转而采用了极致扁平的P2P(Point-to-Point) IP-over-DWDM架构,与此同时Meta采用两级光互联策略:

图3:Meta骨干网物理层演进(Mesh-->P2P ZR+)
2.3 76个正交平面与收敛比设计
面对Llama 4 10 万卡的超大规模集群,像DSF架构一样简单的双平面设计已无法满足对故障隔离半径的严苛要求,Meta 借鉴DSF网络架构平面隔离的思想:将整个网络水平切分为76 个物理隔离的正交平面,每个平面由分布在5 栋楼内具有相同序号的 ATSW 交换机全互联构成,形成了一个独立的网络转发和故障隔离域。这意味着单一平面的故障仅会导致总带宽1.3%(1/76)的线性降级,从而彻底避免了全网震荡的风险,实现了真正意义上的大规模无阻塞交换。
在带宽收敛比的设计上,Meta 也采用分层收敛设计:楼内网络保持1:1 的无阻塞设计以充分满足张量并行(Tensor Parallelism)对极致带宽和低延迟的需求。而在跨楼互联方向上,基于数据并行(Data Parallelism)流量对带宽需求的分析以及对光纤与 ZR/ZR+ 相干光模块物理成本的考量,Meta 设计了约 1:2.8 (近似 3:1) 的收敛比,在保障训练效率的同时实现了成本(光纤/光模块)和工程布线的最优解。

图4 Llama 4集群详细网络层级与正交平面视图
3
NCCLX架构设计
在跨数据中心(跨DC)的分层网络架构下,原生NCCL暴露出三大架构性缺陷,严重制约了训练效率的线性扩展:

图5:原生NCCL的数据传输与控制路径
针对上述问题,Meta开发了NCCLX通信框架及其底层传输引擎 CTran:NCCLX运行在 PyTorch 层之下,统一管理训练和推理的所有通信,而CTran基于Host-driven框架,采用零拷贝和SM-free设计,从根本上解耦通信与计算对GPU资源的竞争。

图6:NCCLX通信栈概览
3.1 NCCXL创新一:灵活主机驱动Host-driven框架
与 NCCL在CUDA kernel中执行集合算法不同,CTran采用主机驱动Host-driven框架:

图7:CTran内部CPU线程与CUDA Kernel的协同工作方式
3.2 NCCXL创新二:零拷贝Zero-Copy
NCCLX通过零拷贝方案彻底释放了GPU SM资源,消除了通信对计算的干扰,还将GPU内存占用从10GB降至4.2GB(降低58%)。
方案对比 | 详细步骤 |
|---|---|
传统NCCL(多拷贝) | 用户发送缓冲区→ (D2D拷贝) → FIFO缓冲区 → (PCIe) → NIC → (网络传输) → NIC → (PCIe) → FIFO缓冲区 → (D2D拷贝) → 接收缓冲区 |
NCCLX零拷贝 | 用户发送缓冲区→ (PCIe) → NIC → (网络传输) → NIC → (PCIe) → 接收缓冲区 |
表1:传统NCCL VS NCCLX
3.3 NCCXL创新三:动态队列负载均衡DQPLB
为了解决零拷贝架构下端点直接向网络注入流量可能导致长距离链路的 Incast 拥塞的问题,Meta 开发了动态队列负载均衡 DQPLB机制——本质上是前序文章《Meta AI网络架构前传:RoCEv2在Llama 3万卡集群中的失效与救赎》 中“接收端驱动流控(Software CTS)”思想的延续,同时也借鉴了《Meta AI网络架构续集:DSF,一台“榨干”以太网物理极限的“F1赛车”,却难做“保时捷911”》提到的“硬件Credit 流控”的核心理念——在无法全网部署昂贵 DSF 设备的通用以太网环境下,通过软件层面的信用管理实现类似的无损效果。在无法全网部署昂贵DSF 专用设备的通用以太网环境中,Meta 通过纯软件实现的分层信用管理实现接近硬件级的无损传输效果。
DQPLB的分层流控设计巧妙地平衡了零拷贝的性能优势和网络拥塞控制的需求,支持通过物理距离动态调整参数配置:距离近的连接使用保守设置以适应较低的带宽延迟积(BDP),而远距离连接则采用激进配置,使用更多数据QP和更高的未确认消息限制,充分利用更大的网络BDP。
4
借鉴意义
目前,国内三大运营商已在多个国家级算力枢纽部署了单体规模达10万卡级别的 AI 训练集群,典型案例如下:
运营商 | 粤港澳大湾区 | 长三角 | 京津冀 | 西北 |
|---|---|---|---|---|
中国电信 | 韶关数据中心集群 | 上海临港智算中心 | 北京亦庄人工智能算力中心 | — |
中国移动 | 韶关数据中心集群 | 上海青浦智算中心 | 北京国际信息港智算中心 | — |
中国联通 | 韶关数据中心集群 | 上海临港智算基地 | — | 乌鲁木齐云计算产业园 |
表2:运营商10万卡集群
这些集群均部署于供电容量超300MW 的新一代智算园区,配备集中式液冷系统与园区级 Clos 网络,所有 GPU 服务器物理上集中于同一地块内的多栋机楼,通过数百米内的短距光互联(端到端延迟 <2μs)构成逻辑上的单体集群。
值得注意的是,以中国电信在《全光网3.0技术白皮书》中提出的“智算中心光网络”愿景为例,白皮书指出通过 400G/800G ROADM 与全光交换(OCS)技术,可动态构建多地互联的分布式 AI 集群,推动城域网向 Mesh 化、扁平化演进,实现 1 毫秒级的算力节点间互联。
这一思路表明:未来构建十万卡级超级集群,未必依赖单一巨型物理站点。借助白皮书所倡导的IP-over-DWDM全光底座,结合经Meta Llama 4 十万卡训练集群实战验证的NCCLX(Host-driven)通信框架与 DQPLB 分层流控等软件机制,运营商有望整合盘活分散的城域网资源、云网POP节点、边缘节点和存量数据中心,构建“物理分散、逻辑统一”的分布式训练基础设施。这不仅契合光网络向 Mesh 化、扁平化演进的趋势,也为万亿参数大模型训练提供了一条绿色、弹性、可持续发展的新路径。