

2026年3月15日,OFC 2026于美国洛杉矶举办主题为《How Far is Too Far? Interconnect Latency and Distributed AI Training》的专题Workshop,聚焦大模型指数级增长背景下,分布式同步AI训练与光互联技术的核心矛盾。本次Workshop的核心演讲内容,先从AI算力缩放的底层定律与物理极限、超大规模AI超算的架构实现两大核心维度展开,再深入光传输技术约束、产业部署实践、距离极限量化验证三大落地层面,来自Google、Ciena、Meta、Eribel Systems、微软的技术专家进行了系统性技术论证。
二、Google TPU超算的高速光互联架构与超大规模集群扩展实践(演讲人:Anny Xijia Zheng)

本次演讲基于Google TPU超算的迭代实践,展示了系统级协同设计对超大规模分布式AI集群互联瓶颈的突破,演讲核心内容如下:
1. 算力指数增长与互联性能墙
模型复杂度的提升,驱动算力需求呈指数级非线性增长。从2018年ELMo的93.6M参数,到2025年的超1.5T参数,模型规模实现了量级跨越;与之匹配的TPU单芯片算力,从v4的275TFLOPS提升至Ironwood的4614TFLOPS,HBM带宽从1.2TBps提升至7.4TBps。

随之而来的核心瓶颈是“互联缺口”:AI/ML基础设施已从服务器集合,演变为大规模分布式共享内存系统,系统性能根本上由互联吞吐量限制,形成了显著的“性能墙”。高性能AI训练,必须依赖高带宽、低延迟、无损的互联fabric,才能实现高效的scale-up与scale-out内存共享。

2. TPU的核心架构解决方案:专用化与片间互联(ICI)
TPU通过专用化设计与片间互联架构,突破互联瓶颈,核心采用3D Torus拓扑的专用ICI,配合光电路交换(OCS)技术,实现故障容错与高效调度。最新一代Ironwood TPU超Pod,实现了scale-up能力的重大突破,单Pod最大可支持9216颗TPU芯片,FP8精度下峰值算力42.5 ExaFLOP,构建了1.77PB可直接寻址的共享HBM内存池,形成单一的共享内存域,可支持9216颗芯片的同步高效训练。

3. Ironwood的模块化扩展与高可用设计
Ironwood采用全3D Torus拓扑,每个切片均集成环绕链路,最大化互联性能;基于4x4x4的模块化设计,可从64节点的基础“Cube”积木块,灵活组装为8x8x4、16x8x16等不同规模的作业切片,单Superpod包含144个4x4x4积木块,可实现弹性规模扩展。



高可用设计上,通过OCS技术实现粒度化故障隔离,可将故障限制在局部“迷你Cube”内,避免全局切片停滞;配合自动重调度机制,可即时识别故障并替换健康Cube,将故障恢复时间从分钟级压缩至秒级。


4. 超越单Pod规模的跨域扩展:Multislice Training
针对超大规模训练需求,Google推出Multislice Training技术,通过400G云互联与Jupiter数据中心网络(DCN),实现跨Pod的TPU切片互联,支持超出单Pod规模的近线性性能扩展,可满足AI工作负载的超低延迟互联需求。


三、分布式AI训练的缩放定律与物理极限(演讲人:Dr. Pedro Freire)

本次演讲从缩放定律的底层逻辑出发,明确了分布式AI训练的终极物理边界,以及不同场景的部署决策框架,演讲核心内容如下:

1. 缩放定律的底层链路:从算力爆炸到分布式架构

AI模型的缩放定律,形成了“算力爆炸→能源极限→网络极限→分布式策略”的底层链路,前沿AI模型的训练算力需求呈指数级增长。2020年GPT-3的训练算力为3.1×10^23 FLOPs,2025年Grok-3已达4×10^26 FLOPs,下一代前沿模型预计将突破10^27-10^28 FLOPs,单数据中心已无法承载对应的算力与能源需求,必须转向地理分布式架构。

从算力需求与基础设施的匹配关系来看,10^26 FLOPs的训练算力需求,需要约2.4万颗GPU,可由单栋数据中心承载;10^27 FLOPs的算力需求,需要约24万颗GPU,需多建筑园区联合承载;而突破10^28 FLOPs的下一代前沿模型,需要约240万颗GPU,必须采用跨区域分布式部署架构。
2. 不同并行策略的延迟敏感性与可行性边界

不同分布式训练并行策略,对互联延迟的敏感性差异显著,直接决定了跨域部署的可行性。其中张量并行通信需求极高,跨数据中心部署完全不可行;数据并行每步训练均需交换权重与梯度,对延迟高度敏感,仅适合同区域部署;流水线并行仅需交换激活值,通信量显著降低,对延迟的敏感性更低;以DiLoCo为代表的异步训练算法,跨广域网的通信量比同步数据并行低500倍,是跨长距场景的核心可行方案。
3. 分布式推理的延迟约束
Transformer模型的推理为逐token生成,每一次网络跳数,都会直接增加单token延迟,因此推理场景对延迟更敏感,且越来越偏向内存受限。即使通过Prefill与Decode阶段分离、KV缓存分片等优化,广域网延迟仍会显著放大开销;跨国家、跨洲际的实时推理,当前技术体系下不具备可行性,仅能实现地理容灾部署。


4. 部署场景的核心洞察与分级适配
基于延迟、带宽与场景需求,分布式AI训练与推理形成了清晰的分级适配规则,从近距到长距的部署场景特性如下:


单节点场景延迟低于1μs,带宽可达900-1800 GB/s,可支撑张量并行+数据并行训练,适配200B参数以内的模型,可实现500B参数以内模型的实时推理;
同机架NVL72互联场景延迟低于1μs,总带宽可达130 TB/s,可支撑张量并行+流水线并行+数据并行全模式训练,适配1T+参数的大模型,可实现万亿参数模型的实时推理;
跨机架Infiniband互联场景延迟在1-10μs,带宽可达400-800 Gbps,可支撑全3D并行训练,适配Prefill与Decode分离的推理部署;同区域跨DC场景延迟在0.1-10ms,带宽可达100-800 Gbps,可适配DiLoCo算法、大微批量流水线并行训练,可探索Prefill与Decode分离的推理部署;
跨国家场景延迟在20-80ms,带宽可达100-400+ Gbps,仅适配500步同步一次的DiLoCo训练,实时推理不可行,仅可用于地理容灾;
跨洲际场景延迟在80-200+ms,带宽可达100-400 Gbps,仅可适配联邦学习架构的训练,实时推理不可行,仅可用于地理容灾。
本次演讲最终给出核心洞察:对于AI训练,同步频率必须随传输距离呈指数级下降——NVLink互联可实现每步同步,IB互联每1-4个微批量同步,跨DC互联每100-500步同步,跨洲际互联需降至每500-1000+步同步。
四、Ciena:分布式同步AI训练的光传输零丢包余量与延迟极限(演讲人:James Harley)

本次演讲核心围绕分布式同步AI训练对光传输的核心需求重构,明确了光余量、零丢包与传输距离的强绑定关系,演讲核心内容如下:
1. 核心矛盾:传统光传输标准与AI训练零丢包需求的不匹配

传统光传输的“零余量(Zero Margin)”定义为前向纠错(FEC)后误码率(BER)1e-15,但该标准下,1.6T波长链路平均每天将产生140个丢包。对于分布式同步AI训练,丢包引发的梯度重传会将差分光路径延迟放大3倍,因此必须通过额外光余量,将FEC后BER降至远低于1e-15,实现近零丢包传输。
2. 差分延迟:分布式同步AI训练的核心距离约束

差分光路径延迟是分布式同步AI训练的主导延迟机制,标准光纤中100km传输对应0.5ms单向延迟。同步AI训练的ALL-Reduce算法,每一轮迭代必须等待所有光路径的梯度数据完成传输,集群可部署的区域上限,完全由算法对差分延迟的容忍度决定;若将差分延迟降低1/3,集群可覆盖的区域面积可扩大9倍。
3. 零丢包实现方案:Margin on Margin架构

针对AI训练的零丢包需求,需采用增强型强FEC,为光链路预留“余量上的余量”。以数据中心互联(DCI)1600ZR链路为例,1dB额外余量可支撑120km零丢包传输,2dB额外余量可支撑160km零丢包传输,强FEC的额外功耗代价仅为2W。

4. 光余量设计的关键约束
对简化型开环FEC(OFEC)的实时FPGA评估显示,不同解码参数的性能差异显著,其中“1S4H”(1次SD+4次HD迭代)表现稳定,“2S3H”存在严重误码。同时,100km及以内的短距链路中,80%以上的噪声来自调制解调器(Modem),光余量设计必须覆盖调制解调器的误码平底、相关误码,以及偏振模色散(PMD)、偏振相关损耗(PDL)等非线性效应的统计长尾。


5. 核心量化结论与开放问题

若假设分布式同步AI算法可容忍1ms差分延迟,在零丢包场景下,集群最大传输距离为200km,对应覆盖面积约12.5万平方公里;存在丢包重传的场景下,最大传输距离直接压缩至66km,对应覆盖面积仅1.4万平方公里。同时演讲指出,当前OIF标准中,尚未针对AI训练的零丢包需求,制定光余量设计的相关规范;未来3年分布式同步AI训练需要的传输距离、可容忍的差分延迟上限,仍是行业待明确的核心问题。
五、Meta:区域级AI DC互联的产业部署实践与边界(演讲人:Mark McKillop,Production Engineer - Meta)


本次演讲基于Meta AI算力集群的真实部署实践,明确了区域级AI数据中心互联的落地边界与工程化要求,演讲核心内容如下:
1. AI DC互联的需求分类与距离分级
Meta将AI集群网络需求分为区域AI DC互联、常规骨干网DC互联两类,本次演讲重点聚焦区域AI DC互联。针对该场景,Meta初步划定的距离分级为<3km、<10km、~600km、~1200km;但产业实践中,最终将区域AI DC互联的最大距离上限设定为~150km。超过150km的站点,交付周期显著拉长,资源收益被完全抵消;<150km的部署范围,可避开高密度光线路放大(ILA)站点,充分利用现有地产与GPU算力资源,无需处理ILA带来的部署复杂度。

2. 硬件部署的工程化实践

现有ILA基于电信机架建设,功率与空间 footprint 受限,仅支持每机架4-8个转发端口(FPs),对应约4.5kW功率、300mm深度;当前Meta正在推进下一代NG-ILA部署,采用600mm深机架,实现更高的每机架功率密度,同时与设备厂商合作研发更密集的硬件,按432-FP为单位进行增量建设。
3. 网络架构的核心设计原则
数百套并行系统的核心挑战,是维持多路径的延迟对称性,避免路径间的延迟波动影响集群同步。架构设计上,优先选择等延迟的最大带宽路径,而非降低容量适配多路径;

对于光交换(OCS)的应用,Meta指出其端口、插片、机框的成本会随规模呈N倍增长,部署时需结合AI业务的不同服务等级(CoS)做专属的容量规划与可用性设计。常规骨干网采用IP层保护切换,但其在ZR技术场景下的性能开销会显著增加,而保护切换的底层逻辑本身具备简洁性,需结合OCS与AI业务特性做网络保护的优化适配。

4. 新技术观点与生产环境测试

对于空心光纤技术,演讲指出其核心价值需实现产业化落地后才能释放,无ILA长距传输能力,可减少光放大站点、跳过现有ILA,短期与长期均具备应用价值;但单纯20%的延迟降低,无法改变80km与100km场景的核心架构约束,仅能在RoCE场景下实现数公里的距离拓展。

生产环境中,Meta已完成分布式集群的延迟测试,单集群规模144颗GPU,单链路采用48个400G ZR模块,总带宽可达19.2T,链路buffer可配置范围0-500k,测试距离覆盖2km、10km、50km、200km、250km、500km,完成了RoCE/TCP的参数与buffer调优。

六、Eribel Systems:地理分布式AI训练的距离极限量化与架构优化(演讲人:Katharine Schmidtke, Ph.D)

本次演讲通过仿真量化与产业数据结合,明确了地理分布式AI训练的距离边界,以及延迟缓解的技术路径,演讲核心内容如下:
1. 地理分布式AI集群的核心驱动力

大模型规模的持续增长,需要更多GPU协同完成同步训练,单数据中心的算力上限已无法支撑前沿需求。xAI的Colossus集群单站点GPU规模已达10万颗,单数据中心的功率规模已达100-500MW,土地、电力的刚性约束,迫使AI算力集群从单DC向跨建筑、跨园区、跨区域的地理分布式架构演进,部署距离从园区内<3km、同城<10km,逐步拓展至10-100km的城域范围。
2. AI集群的分层网络架构

大规模AI集群已形成三级网络架构,不同层级的延迟与带宽能力差异显著。第一级为Scale-Up(节点内/机架内),采用NVLink/NVSwitch类fabric,延迟低于1μs,用于超短距高速互联;第二级为Scale-Out(单数据中心内),采用以太网/InfinBand架构,搭配400G/800G光链路,采用Clos/Leaf-spine组网,用于集群内节点互联;第三级为Scale-Across(数据中心间),采用长距光传输、相干光ZR/ZR+技术,延迟在0.5-5ms区间,具体依距离而定,用于跨DC集群互联。

3. 产业现状与核心仿真结论

当前绝大多数AI训练集群,仍尽量部署在单一数据中心内,核心原因是光纤传输、网络协议、交换机带来的延迟挑战,会严重影响训练效率。跨DC互联网络需要10-100Tbps的超大带宽,单链路速率需达到400G-1.6T,基于相干DWDM、400ZR/800ZR模块与电信级光纤基础设施建设。

基于32k GPU规模的Llama 70B模型数据并行训练场景,采用RoCE环算法的仿真结果显示,128MB消息尺寸下,超过100km的互联距离,模型归一化吞吐量已出现显著下降;对于小模型训练,在园区级(10km)之外,就已进入延迟主导、而非带宽受限的低效区间。


4. 延迟的物理底层与缓解方案
光传输延迟存在无法突破的物理极限,标准单模光纤的单向传输时延约5μs/km,空心光纤可将该数值降至3.5μs/km,在相同传输时间下,空心光纤可拓展30%的传输距离,但仍无法突破光速的底层约束。以具体距离为例,1km传输,标准光纤时延5μs,空心光纤3.5μs;100km传输,标准光纤时延500μs,空心光纤350μs;1000km传输,标准光纤时延5000μs,空心光纤3500μs。

同时,主流AI专用以太网交换机的单跳延迟已进入百纳秒级,其中Broadcom TH-6 Ultra单跳延迟约250ns,NVIDIA Spectrum-4单跳延迟约300ns,二者均支持51.2 Tbps的交换容量,典型radix为128×400G,可支撑10万+规模的加速器与GPU集群组网,多跳组网带来的延迟叠加,会进一步压缩跨DC集群的可用传输距离。

针对延迟约束,可采用拓扑感知模型并行、区域子集群拆分、流水线并行、部分异步更新、梯度压缩、分层聚合等架构与算法优化方案,但所有方案均会伴随确定性降低、系统复杂度提升、算法精度损失的代价。

5. 核心结论

物理定律决定了同步AI训练集群的核心边界在城域尺度;超过100km的DCI互联,仅对大消息尺寸、高互联带宽的大模型训练具备可行性;能源供给对AI集群地理分布的影响,将远超光传输技术本身。

七、Workshop核心共识总结
本次Workshop所有演讲嘉宾形成的产业共识和核心结论如下:
1. 光速的物理定律,决定了分布式同步AI训练集群的天然边界为城域尺度(~100km),光学技术仅能优化延迟,无法突破底层物理约束;
2. 零丢包是分布式同步AI训练跨域部署的核心前提,丢包引发的重传,会大幅压缩集群的可部署距离,传统光传输的零余量标准已无法满足AI需求,需重构面向AI的光余量设计规范;
3. 产业实践中,区域级AI DC互联的当前部署上限为150km,超过该距离的资源收益,会被部署复杂度、训练效率损失完全抵消;
4. 超过100km的长距DCI互联,仅对大消息尺寸、高互联带宽的大模型训练具备可行性,小模型训练在园区级之外就已进入延迟主导的低效区间;
5. 跨国家、跨洲际的同步分布式训练,当前技术体系下无落地可行性,仅能通过低频次异步训练、联邦学习等架构实现;
6. 土地、电力与可再生能源的分布,对AI集群地理分布的影响,将远超光传输技术本身,是未来分布式AI集群部署的核心决定因素。