首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >OFC 2026 Nvidia大会报告:千兆瓦AI工厂时代的光互联与算力新范式

OFC 2026 Nvidia大会报告:千兆瓦AI工厂时代的光互联与算力新范式

作者头像
光芯
发布2026-04-03 09:56:12
发布2026-04-03 09:56:12
540
举报
文章被收录于专栏:光芯前沿光芯前沿

在2026年光通信顶会OFC上,NVIDIA高管Dr. Alexis Bjrlin带来了题目为《千兆瓦级AI工厂时代的网络技术》的演讲。整场演讲的核心,正是向行业宣告:AI工厂已成为AI时代的工业基础设施,算力就是营收,推理成为核心负载,Token是新的大宗商品,而光互联与网络技术,已经从传统数据中心的“辅助配件”,跃升为定义AI算力上限、决定AI工厂商业价值的核心中枢。

◆ AI工厂:AI时代的工业级智能生产系统

传统认知中,数据中心是承载算力的物理空间,而NVIDIA在演讲中重新定义了这一概念:AI工厂绝非普通的数据中心,而是工业级的智能生产系统,是AI时代的核心生产力载体。2030年,全球将有近百吉瓦的新增数据中心容量上线,仅头部超算企业今年在AI基础设施上的投入就将达到7000亿美元;一座1吉瓦的AI工厂,仅数据中心建设的资本投入就达400亿美元,配套的算力基础设施投入同样为400亿美元,如此巨额的投入,让AI工厂的运营效率、可靠性与盈利能力成为行业的核心命题。

报告指出,AI工厂的核心竞争力,围绕三大维度持续优化:其一是每瓦性能,即每兆瓦电力能产出的Token数量,直接决定了AI工厂的单兆瓦营收上限;其二是每美元性能,即单位资本投入能带来的产出效率,决定了巨额投资的回报周期;其三是智能质量,模型能力的提升会直接推高Token的商业价值,而这三大维度的优化,都离不开全栈技术的协同设计。

NVIDIA将其AI基础设施体系定义为五层全栈架构,从底层的能源与数据中心供电系统,到加速计算硬件,再到全球规模化部署的AI基础设施,向上延伸至全球开源社区与合作伙伴共同开发的AI模型,最顶层是支撑AI规模化落地的软件栈与平台。这一被黄仁勋称为“五层蛋糕”的全栈体系,支撑了从聊天机器人、AI编程助手到自动驾驶、企业级AI Agent的全场景应用,也彻底改变了算力基础设施的设计逻辑。

与此同时,AI工厂对基础设施的可靠性提出了近乎苛刻的要求。预训练大模型的单次训练任务成本可达数亿美元,一次故障就可能导致整个集群的吞吐量下降,带来巨额的时间与资金损失。Meta公开的Llama 3训练数据显示,在16000张GPU组成的集群、54天的预训练周期中,共出现了466次任务中断,即便只有部分故障来自网络问题,单个链路的性能下降、收发器的静默误码,都会产生“拖尾效应”,拖累整个16000GPU集群的整体吞吐量。

而在更大规模的集群中,可靠性的价值更为凸显:512K GPU集群的单小时运营成本约为3.4美元/GPU,10%的停机时间,就意味着每天410万美元的直接损失。因此,NVIDIA在演讲中强调,平均无中断时间(MTBI)是AI基础设施的核心指标,而网络与光通信技术的可靠性,直接决定了AI工厂的运营底线。

◆ 推理负载的颠覆性变革

过去行业的共识是,AI训练是数据中心级的超大规模负载,驱动着通信技术与系统规模的技术路线演进,而推理只是节点级负载,对通信的要求极低。2024年MLPerf推理测试v4.0的结果印证了这一认知:当时最大的模型是Llama2 70B,性能最强的系统是单节点H200。但仅仅两年后的2026年,行业格局发生了彻底反转:推理已经成为数据中心级的核心负载,其对通信带宽、延迟与规模的要求达到了前所未有的高度。推理负载的底层逻辑发生了四大核心演进,彻底重构了对网络与光互联的需求:

第一是大规模混合专家(MoE)架构的普及,彻底改变了网络流量模型。不同于传统的标准Transformer架构,MoE模型用多个动态路由的“专家子网络”替代了单一的参数矩阵,以DeepSeek R1为例,其拥有58个MoE层,每层设置256个专家,这些专家分布式部署在大量节点之上,每个输入Token会被动态路由到不同的专家子网络,产生了不规则的全到全通信流量——每个GPU都需要与其他所有GPU完成数据交互,这与传统的全归约通信模式完全不同,对网络的带宽、延迟与可扩展性提出了指数级增长的需求。

第二是解耦式推理架构的落地,实现了推理效率的量级跃升,也对跨节点网络提出了刚性要求。报告中指出,推理本质上是一个两步流程:第一步是预填充(Prefill)阶段,模型处理用户输入的上下文,执行大规模矩阵乘法,是典型的计算密集型负载;第二步是生成/解码(Decode)阶段,模型逐Token生成输出,需要频繁调用模型权重与KV缓存,是典型的内存密集型负载。

两个阶段的算力特性完全不同,传统的单节点部署无法同时适配两种负载的最优需求,而解耦式推理将GPU拆分为预填充池与解码池,分别为两个阶段加载专用内核实现最优性能,但这一架构的前提,是连接所有GPU的高带宽低延迟网络,确保预填充的上下文数据能无损耗地传输到解码池,不产生性能衰减。

正是基于这一架构的全栈协同设计,NVIDIA GB300 NVL72实现了35倍的Token成本下降与50倍的每瓦性能提升,而全新的Vera Rubin平台与Groq3 LPX系统,更是通过Spectrum6互联的混合架构,进一步拓展了解耦式推理的性能边界。

第三是多轮推理的普及,推高了对低延迟分布式算力的需求。不同于传统大模型的单轮输入输出,新一代推理模型需要通过多轮内部迭代、多步“思考”才能输出高质量结果,这意味着单查询需要生成更多的Token,也需要更低的端到端延迟,避免用户等待时间过长。而实现低延迟多轮推理的唯一方式,是将计算任务分散到更多GPU上并行执行,这进一步扩大了推理负载的集群规模,也带来了更多的跨节点通信需求。

第四是AI Agent的爆发,带来了算力需求的量级跃升。演讲中提到,开源AI Agent项目OpenClaw(ClawdBot)的GitHub星标数一夜之间超越了Linux内核,成为史上增速最快的开源项目,这标志着AI已经从单轮问答的“聊天工具”,进入了可以自主执行长周期任务的智能体时代。不同于传统推理,AI Agent需要连续运行数小时,自主完成代码编写、测试验证、迭代优化等一系列操作,单任务的算力需求较传统问答提升了100-1000倍,也对网络的安全性、可靠性与持续通信能力提出了全新的要求。

每一次AI能力的拐点,都带来了100倍以上的算力需求增长:2022年ChatGPT上线,60天突破1亿用户,开启了生成式AI的时代;2024年底推理模型落地,单查询的算力需求提升了10-100倍;2026年AI Agent的爆发,更是让单任务的算力需求提升了100-1000倍。而这些算力需求的落地,最终都指向了同一个核心——如何通过网络与光互联技术,将数十万甚至数百万GPU连接成一个高效协同的整体,实现从能源到智能、再到营收的高效转化。

◆ 数据中心即计算机,网络定义AI工厂的边界

NVIDIA过往就多次在演讲中提出一个核心论断:数据中心就是计算机,而网络定义了数据中心的边界。AI工厂的算力扩展,遵循着scale-up、scale-out、scale-across的三层架构,而光互联技术,正是支撑这三层架构实现规模化扩展的核心支柱。

在scale-up层面,NVIDIA通过NVLink技术将多颗GPU集成为一个逻辑整体,Blackwell架构的NVL72系统,实现了72颗GPU的统一协同,如同单颗GPU一样高效运行;而新一代NVL576系统,更是通过8个GB200机架构建起强大的单域算力,机架内部通过铜缆实现NVLink 36架构的极致低延迟互联,而不同NVLink 36域之间,则通过光学NVLink交换托盘实现互联——这标志着光互联未来将从scale-out场景进入scale-up的核心域内互联场景。

在scale-out与scale-across层面,光互联更是成为了唯一的解决方案。随着GPU中心架构替代了传统的CPU中心架构,网络带宽需求呈指数级增长,scale-out场景的互联已经全面从铜缆转向光学连接。在512K GPU的超大规模集群中,通常采用三层胖树网络与多轨拓扑架构,仅GPU服务器与交换机之间的互联,就需要超过120万个光收发器,这些光模块的功耗达到30MW,占整个集群总功耗的7%,而随着光互联向scale-up域的渗透,这一占比还将持续提升。AI工厂的算力密度,本质上由光互联的能力决定。

AI的爆发,也彻底加速了光通信行业的技术迭代速度。过去25年,光通信行业完成了从10G到1600G的代际跃迁,而技术量产的周期发生了颠覆性的变化:25年前,行业需要5年时间才能实现单个速率等级的百万台累计出货;而在AI时代,800G光模块实现年出货百万台仅用了2年时间,Blackwell架构发布后的一年里,1.6T光模块的出货量已经突破了百万台。这种前所未有的规模化速度,给整个光电子行业带来了巨大的机遇,也提出了前所未有的规模化挑战。

◆ 硅光与CPO技术:NVIDIA重构AI光互联的底层逻辑

面对AI工厂对光互联技术的极致需求,NVIDIA在演讲中全面披露了其在硅光子学领域的全栈布局,强调NVIDIA并非只是光器件的使用者,更是光互联未来技术的联合发明者,而其核心技术路线,正是基于硅光子学的共封装光学(CPO)技术。

NVIDIA推出了两大集成硅光子学平台:面向以太网的Spectrum-X平台,与面向InfiniBand的Quantum-X平台,二者共同构成了AI工厂光互联的核心底座。CPO技术将光学引擎与交换芯片封装在一起,让光学模块更贴近计算核心,从底层解决了传统光模块的带宽瓶颈、功耗损耗与密度限制,实现了更高的带宽、更低的功耗与更大的部署规模。这一技术的突破,离不开电子芯片、光子学、封装技术、光纤连接与激光技术的全链路创新,更离不开与生态伙伴的深度协同——NVIDIA在演讲中明确表示,其硅光领域的所有专利,都将授权给生态合作伙伴,目标是构建开放的行业生态,而非封闭的技术壁垒。

在CPO技术的核心,NVIDIA做出了一个关键的技术决策:以微环调制器(MRM)为核心,实现200G PAM4的单通道速率。传统的马赫-曾德尔调制器(MZM)体积大、功耗高,难以实现高密度集成,而MRM的尺寸仅为数十微米,功耗极低,天然支持高密度集成与波分复用,能够大幅降低封装成本,提升I/O扩展能力。

针对行业长期以来担忧的MRM温度稳定性问题,NVIDIA在演讲中披露了其技术突破:通过混合信号与光子学团队的联合设计,配合复杂的驱动、调谐与控制算法,其MRM实现了在50℃的快速温度波动下的稳定锁定,无论是从30℃升温到85℃再回落,还是从85℃降温到30℃再回升,MRM都能保持稳定的控制环路、光功率与传输性能,彻底解决了温度敏感的行业痛点。目前,NVIDIA的硅光子学MRM已经实现了212.5Gbps的单通道速率,误码率低于1e-10。

面向未来,NVIDIA将DWDM(密集波分复用)技术作为下一代AI光互联的核心演进方向。基于MRM阵列的8波长DWDM技术,能够在单根光纤上实现400Gbps的传输带宽,功耗低至3pj/bit(包含激光器与host SERDES),整体能效提升25%。同时,结合光学中介层(Optics On Interposer OOI)集成技术,能够通过并行低速低功耗的电气接口,实现光子芯片与计算芯片的高密度集成,彻底消除高速电接口的功耗与密度瓶颈。这一技术路线,能够通过增加波长数量、提升单波长速率、升级调制格式等方式,在不增加光纤数量的前提下,实现带宽的持续翻倍,让光互联的带宽增长速度超越摩尔定律,为千兆瓦级AI工厂提供持续的技术支撑。

◆ 全栈协同设计,定义AI工厂的未来

NVIDIA在演讲的最后强调,AI时代的技术突破,从来都不是单一环节的创新,而是全栈协同设计的结果。从芯片、系统、软件、模型到网络与光互联技术的全链路协同,是NVIDIA能够实现每年性能指数级跃升的核心逻辑。

目前,基于Blackwell架构的GB200 NVL72系统已经实现了推理性能的量级突破,全新的Vera Rubin平台与Groq3 LPX系统,通过解耦式推理架构与Spectrum6互联技术,进一步解锁了3000亿美元的年度营收机遇。而面向下一代,NVIDIA公布了Feynman平台的技术路线:将采用全新的网络芯片,实现通信带宽的翻倍(204T Spectrum 7 CPO),将CPO技术全面覆盖scale-up与scale-out全场景,同时通过新一代NVLink 8 CPO技术,将NVLink域的规模提升至1152节点,实现前所未有的算力协同能力。

这场OFC 2026的演讲,本质上是NVIDIA对AI时代基础设施的一次完整定义:AI的竞争,已经从单芯片的算力竞赛,升级到了全栈协同的千兆瓦AI工厂的竞赛。光电子技术不再是数据中心的“配角”,而是决定AI算力天花板、决定AI工厂商业价值的核心支柱,已经从物理层的连接技术,进化为AI工厂的中枢神经系统。NVIDIA通过全栈协同的技术布局与开放的生态策略,正在推动光通信行业与AI行业的深度融合,共同开启AI基础设施的全新时代。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-03-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 光芯 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档