前往小程序,Get更优阅读体验!
立即前往
发布
社区首页 >专栏 >AI芯片互连遭遇算力墙,UCIe凭什么成为破局关键?

AI芯片互连遭遇算力墙,UCIe凭什么成为破局关键?

作者头像
ICT百科
发布2025-03-10 21:24:56
发布2025-03-10 21:24:56
630
举报
文章被收录于专栏:6G6G

大规模部署人工智能面临的核心挑战在于其对计算能力和通信带宽的极端需求。AI集群依赖复杂的网络基础设施处理处理器、内存及存储间的海量数据流。Meta的研究表明,数据中心内约40%的时间消耗在网络传输环节,凸显网络性能对AI效率的直接影响。

与传统数据中心相比,AI专用数据中心在前端部署定制化计算设施,后端构建ML加速集群,其流量模式固定且需超高带宽,这对网络架构提出了非阻塞、低延迟、高稳定性的三重标准。简而言之,网络连接能力已成为限制发展的关键原因之一,AI需要专门的硬件来实现极致的数据传输速度

在后端ML网络中,单个链路丢包即可导致整体性能滑坡,因此需采用无损传输技术。当前解决方案聚焦三方面突破:连接协议升级、芯片架构革新及封装技术创新。

首先从连接前端网络的CPU说起,这部分仍然使用以太网。目前是112G,而224G则将是未来的标准。

前端网卡(以及其他外设)通过PCIe连接——通常是Gen5或Gen6,Gen7标准即将确定,并将于 2025 年进入数据中心。当前,CPU和XPU通过PCIe或CXL(v3)访问存储,从而降低延迟。未来还有可能实现从芯片存储到GPU的直接连接,同时将存储设备以分散的形式放置在各自机架中的集中存储池中。

在后端,通常看到的是定制化的以太网或PCIe,例如NVIDIA的InfiniBand。对于服务器内部的XPU之间以及CPU之间的连接,有多种解决方案,包括NVIDIA的NVLink或UALink。最后,XPU与内存之间的连接使用高带宽内存(HBM)。

同时,小芯片技术正重塑AI硬件生态。与传统单片SoC相比,模块化设计可将系统分解为计算、I/O、存储等专用单元,通过UCIe等协议实现异构集成。该模式使芯片良率提升30%-50%,开发周期缩短40%,同时通过工艺组合优化降低系统功耗25%-50%。以NVIDIA Grace Hopper为例,其采用5nm计算芯粒与4nm I/O芯粒组合,互连密度达10μm/通道。

主流芯片互连协议对比

向1.6T带宽迈进需突破物理限制。当前51.2T交换机采用512×100G链路,升级至200G单通道后,仅需256通道即可实现同等带宽,显著降低布线复杂度。台积电3DFabric技术已实现8层堆叠芯粒,互连密度较传统封装提升5倍,为下一代交换机奠定基础。

AI SoC设计转向"功能解耦+芯粒重组"模式。将CPU核心、加速器、HBM等模块独立为芯粒,通过UCIe互连动态配置。该架构使同套设计可适配云端训练(侧重计算密度)与边缘推理(强调能效),开发效率提升60%。AMD MI300X即采用13个芯粒整合CPU/GPU/HBM,晶体管密度达1460亿/mm²。

未来三年,AI硬件将呈现三大趋势:UCIe生态完成跨厂商互操作性认证、光电共封装技术降低SerDes功耗、存算一体芯粒突破冯·诺依曼瓶颈。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-03-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 通信百科 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档