首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >英伟达白皮书:AI时代的网络-网络定义数据中心

英伟达白皮书:AI时代的网络-网络定义数据中心

作者头像
AIGC部落
发布2025-07-04 10:58:22
发布2025-07-04 10:58:22
3040
举报
文章被收录于专栏:Dance with GenAIDance with GenAI

AI 时代的数据中心网络需支持分布式计算,尤其是生成式 AI 和大规模模型训练。传统以太网难以满足高性能需求,而NVIDIA Spectrum-X 以太网和 Quantum InfiniBand通过无损网络、RDMA、动态路由、拥塞控制、网络计算(如 SHARP 协议)等技术优化,解决了 AI 工作负载的高带宽、低时延和尾部延迟问题。其中,Spectrum-X 通过交换机与 DPU 协同实现动态路由和拥塞控制,Quantum InfiniBand 凭借原生无损特性和集合计算能力成为性能标杆。此外,网络架构需避免缓冲区设计、链路速度变化等常见误解,注重性能隔离、安全和可扩展性,以支撑 AI 云与 AI 工厂的高效运行。

一、AI 时代数据中心网络的核心挑战

分布式计算需求:AI 模型训练(如 ChatGPT、BERT)依赖数千 GPU 节点协同,网络需支撑高带宽、低时延通信,尾部延迟(最慢节点消息到达时间)直接影响训练效率。

传统以太网局限:本质为有损网络,数据包易丢失,仅适合小规模工作负载;缺乏针对 “大象流”(大型数据流)的优化,易拥塞。

二、NVIDIA 核心解决方案对比

技术方案

Spectrum-X 以太网

Quantum InfiniBand

网络特性

基于 RDMA(RoCE)和 PFC 实现无损网络

原生无损网络,基于信用的流控制机制

动态路由

数据包粒度负载分担,结合 BlueField-3 DPU 实现端到端排序

集中式子网管理器(SM)动态选择负载最小路径,硬件处理乱序

拥塞控制

交换机与 DPU 协同,带内遥测数据触发流量计量

三阶段拥塞控制(FECN/BECN 标记,源端速率调整)

网络计算

SHARP 协议硬件加速集合通信(如 allreduce),提升 NCCL 性能1.7 倍

典型场景

AI 云(多租户、混合负载)

AI 工厂(大规模模型训练,数千 GPU 协同)

Spectrum-X 与 Quantum InfiniBand 的核心差异是什么?

应用场景:Spectrum-X 适用于多租户 AI 云,兼容现有以太网生态;Quantum InfiniBand 适用于大规模 AI 工厂,专注高性能计算。

技术特性:Spectrum-X 依赖 DPU 实现拥塞控制和排序,Quantum InfiniBand 通过硬件加速集合通信(SHARP)提升性能,且原生支持无损和动态路由。

三、关键技术细节

无损网络与 RDMA

RDMA 允许 GPU / 存储直接通信,绕过 CPU,时延降低50% 以上。

以太网通过 RoCE(RDMA over Converged Ethernet)和 PFC(优先级流量控制)实现无损,但需交换机(如 Spectrum-4)与 DPU(BlueField-3)协同。

动态路由与负载分担

传统 ECMP(等价多路径)不适合 “大象流”,易导致链路拥塞。

Spectrum-X 采用数据包粒度动态路由,结合 DPU 的直接数据放置(DDP)实现有序交付;InfiniBand 通过子网管理器动态均衡流量,提升链路利用率。

拥塞控制机制

以太网 ECN(显式拥塞通知)在突发流量下易丢包,Spectrum-X 通过交换机遥测数据实时通知 DPU 调整速率。

InfiniBand 的 FECN/BECN 机制可在微秒级响应拥塞,避免缓冲区溢出。

性能隔离与安全

通用共享缓冲区(如 Spectrum-4 的 133Gbps 全共享缓冲区)比分割缓冲区有效容量大4 倍,公平分配带宽,避免 “嘈杂邻居” 影响。

BlueField-3 DPU 支持 MACsec/IPsec 加密,保障多租户数据安全。

网络计算与集合通信

InfiniBand 的 SHARP 协议在交换机中硬件加速数据归约,例如在 400Gb/s 网络中,使用 SHARP 的 NCCL 性能比不使用时高1.7 倍。

NCCL 库优化跨节点 GPU 通信,支持 all-gather、reduce-scatter 等操作。

四、架构设计原则

直通式交换:端到端链路速度一致(如 400Gb/s),避免存储转发引入的时延(处理大型数据帧时延迟可增加数十微秒)。

缓冲区选择:浅层缓冲区(MB 级,如 Spectrum-X)优于深度缓冲区(GB 级),因深度缓冲区导致尾部延迟呈线性增长,影响 AI 训练效率。

可扩展性:交换机基数(逻辑 MAC 数)非唯一指标,需平衡带宽与时延,例如高基数交换机可能因流量拆分降低 All-to-All 操作性能。

五、常见误解澄清

端到端链路速度可变:错误,速度变化需存储转发,增加时延,AI 网络需同速链路(如图 8 的 400Gb/s 端到端拓扑)。

深度缓冲区更优:错误,深度缓冲区虽容纳突发流量,但时延随缓冲区占用率线性增加(如 4GB 缓冲区在 10% 占用时延迟达 16ms),而浅层缓冲区延迟稳定。

交换机基数越大越好:错误,AI 性能依赖有效带宽和时延,高基数可能牺牲单链路速率,导致集合操作性能下降。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-07-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Dance with GenAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档