前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >OFC 2025:Nvidia的铜缆互联方案

OFC 2025:Nvidia的铜缆互联方案

作者头像
光芯
发布2025-04-08 21:43:17
发布2025-04-08 21:43:17
3380
举报
文章被收录于专栏:光芯前沿光芯前沿

一、引言

在计算需求呈爆发式增长的背景下,Nvidia不断推陈出新。本文聚焦于Nvidia Blackwell架构背后的铜缆技术,阐述其在实现高计算性能和带宽扩展方面的关键作用。

二、计算需求与架构演进

随着生成式预训练Transformer模型(如GPT)等新发明和技术的涌现,计算需求的方向发生了根本性转变。从Ampere到Hopper再到Blackwell架构,Nvidia产品不断适应这些变化,总吞吐量实现了翻倍,以应对更多计算任务、未知参数和词元等需求。

三、关键组件与连接方式

① GB 200超级芯片

GB 200超级芯片是重要组成部分,下方配备Grace处理器CPU,上方有两个Hopper GPU。通过无源铜缆直接连接到上方连接器,信号传输过程中存在封装和电路板损耗,但无信号重组。

② NVLink交换机托盘

每个托盘有两个交换机ASIC,有GB 200 NVL 72和GB 200 NVL 36两种类型。前者可连接72个GPU,后者连接36个GPU。金色电缆用于NVLink连接,与电缆盒相连,机箱前面的蓝色电缆用于OSFP接口,实现不同版本的扩展。

③ Nvlink主干电缆

采用无源铜缆DAC双轴结构,实现垂直方向的信号重组。有8个底部连接器和10个顶部连接器,每个连接器可处理一个GPU的全部带宽,交换机处理的带宽为托盘需处理带宽的四分之一。

④ 电缆盒与托盘连接

电缆盒负责垂直方向信号重组,计算托盘底部8个、顶部10个,每个托盘4个GPU,共72个GPU;9个交换机托盘,每个托盘2个交换机,实现全互联拓扑结构。(每一个NVLink5端口为2×200G/s的4个差分对)

四、信号处理与电缆管理

① 信号完整性

从GPU到面板信号直接传输,损耗均匀。但在垂直信号重组中,需Serdes补偿190毫米到近一米的不同长度铜缆的损耗,以支持200Gb/s的传输速度。

② 电缆管理

根据电缆长度管理体积,一定长度以下可接受稍大损耗,使用更细电缆;更大长度时使用更粗规格电缆。电缆组装都是自动化的。

五、不同配置与扩展能力

① 36 GPU配置

底部4个托盘、顶部5个托盘,共9个计算托盘、36个GPU,交换机和托盘数量不变。可作为独立单元运行,部分信号通过OSFP接口输出。

② 72 GPU组合

使用两个GB 200 NVL 36,可构建带风冷机架的72个GPU组合,通过线性有源铜缆连接。机架及内部组件传输距离超出无源电缆范围,使用1.1米长线性有源铜缆ACC(非传输距离限制,Samtec可以实现200G速率传3m,主要为电缆管理,避免悬挂),接收端仅需一个线性重驱动Redriver芯片。

六、Kyber机架与未来展望

Kyber机架在GTC 2025上做了展示,预计应用于Ruben ultra。一个柜子有4个GB 200 NVL 72组成,机架由1U 44.5毫米的计算机架缩小到可以堆叠18个组件,缩短了电气传输距离。机架各部分通过标准无源中间板连接,虽看似未扩展GPU领域,但组件紧密排列提供了通过铜缆扩展的机会,为未来发展奠定基础。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-04-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 光芯 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档