首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >三星:光互连+分层网络架构+内存优化,打造百万卡算力集群

三星:光互连+分层网络架构+内存优化,打造百万卡算力集群

作者头像
光芯
发布2025-04-08 21:32:42
发布2025-04-08 21:32:42
2270
举报
文章被收录于专栏:光芯前沿光芯前沿

一、引言:百万级AI集群愿景

三星在去年提出了本项目,旨在通过跨学科协作,在本十年末打造一个包含100万个GPU/xPU的超级计算集群,以突破当前AI/ML工作负载的性能瓶颈。这一“登月计划”的核心在于解决大规模计算元件的连接性、内存效率和网络扩展性问题,其技术路径涵盖原生互连、光通信、内存架构优化及分层集群设计。

对于100万卡集群的搭建,可以分解成16×16×16×16×16的维度,利用空分复用、高波特率光链路、波分复用、内存层级管理等技术。在这个过程中,项目探讨了利用原生互连进行Scale up的概念,这催生了一些短距离光互连技术的设想。而在Scale out上,如果想将多个子集群连接在一起,就需要具有高带宽的 “胖管道” 连接,超以太网(Ultra Ethernet)、无限带宽(InfiniBand)以太网在这一领域应用十分广泛。同时也发现,虽然分组交换技术很不错,但在任何层级结构中都会带来大量额外延迟,所以光交换技术OCS也提供了一些新的思路。

总的来说,百万卡集群构建需要大量的网络资源和内存。例如,可能需要2000个域,每个域有500个CPU。人们一直在努力解决计算元件的问题,算法和框架也在不断融合。

二、技术挑战与核心路径

1. 内存与存储架构演进

在内存方面,内存技术正推动单个芯片封装密度的提升,16Gb的内存正逐渐向32GB过渡。通过硅通孔(TSV)技术,将芯片堆叠到12层是可行的,人们正在这方面不断努力。而与这些DRAM芯片通信时能达到的带宽,同样非常重要。不同形式的DRAM封装,如HBM、LPDDR、GDDR、DDR总线,以及新兴的CXL,在小空间内可封装的设备数量、比特率和容错能力方面各有利弊,需要权衡选择。

例如,如果堆叠几个HBM,每个HBM包含8层芯片,每层芯片为32Gb,也就是4GB,那么通过6个这样的设备就能组成一个192GB的内存组合。而RDIMM(registered Dual In-line Memory Module,注册双列直插式内存模块)的制造方式有所不同,其设备不是堆叠在一起,而是放置在PCB上。在这种模式下,通过32个RDIMM,再加上8个用于纠错码(ECC)的设备,也可以实现128GB的内存容量。在一个大型PCB上,通过放置多个RDIMM,从而获得更大的内存容量。

因此,一个系统可以由具有本地HBM的xPU(或GPU)组成,用于实现内存的高带宽接口,通过另一个控制器连接本地内存,或者连接配备LPDDR内存的CPU。当然,一个完整的系统还需要网络和存储。随着CXL扩展内存的普及,还可以在扩展内存空间中为这些设备提供数TB的DRAM,供CPU或GPU使用。

2. 原生互连扩展:突破封装限制

目前常见的xPU架构是将算力大芯片居中,IO/内存芯片粒分布在封装周边,周边芯片如HBM通过多层堆栈的形式提升通信和存储存储(如192GiB HBM配置)。这种方式对于空间的要求很高,限制因素包括封装基板、走线长度及走线扇出、芯片放置间距等。

而另一种思路,则是采用多个小芯片进行互连,这样对于IO扇出更友好,内存也可以放在合适的位置,比如通过2mm间距的芯片间总线连接构成二维环面(2D Torus)或Mesh拓扑结构,但此时实现互连的多层基板布线、信号完整性、散热成为挑战。为了解决互连难题,就可以考虑基板外的短距互连,比如铜缆IO或者OIO的方案。分布式的方案需求大端口数的互连。

3. 网络扩展:从子集群到超级集群

一旦有了一个集成度很高、拥有数千个xPU集群,就需要将这些集群相互连接起来。比如,如果要构建一个由8个GPU组成的集合,每个GPU需要连接到其他7个GPU。那么,一个具有7个端口的GPU就可以实现8个GPU之间的全互连。如果想扩展到8个以上的GPU,使用交换机就很合理。

示意图展示了8个GPU通过一层交换机实现全连接,每个交换机还能够连接到这个组之外的其他交换机。分组交换可以实现全对全的互连,但如果不需要这种全对全连接,电交换则更为简单,成本也更低。

上边示意图展示了一个更大的全连接集群。这里的每个三角形代表一组8个或16个xPU,它们各自有自己的交换机,这些交换机相互连接,构建了一个包含256个GPU的子集群。在这种情况下,短距离光接口就能发挥重要作用,在这个256个GPU的集群中,每个GPU都可以与其他GPU相连。所以,互连是一个重要因素。OIO凭借其更高传输速率的优势,将发挥出巨大的作用。

三、企业创新案例(Celestial AI)及启示

目前在高速IO领域有很多活跃的公司,比如Ayar Labs、Celestial AI、曦智、Avicena等聚焦OIO方案,解决AI系统的通信瓶颈;而Kandou、Eliyan等公司则在推动优化基板高速信号传输,提升封装内互连效率。

这里以Celestial AI的创新案例来展示大端口数交换对于扩展连接性的重要性与机遇。在这个例子中,展示了子组内的GPU有16条连接链路,每个交换机可以连接到16个其他交换机或实体。如果将16个交换机相互连接,就会多出一个端口,这个端口可以连接到一个特殊设备,这个设备可以作为参数服务器,用于in-fabric compute或in-memory compute,有助于减少子集群之间的通信流量。

Celestial AI专注于开发光子结构互连技术,通过光通信解决传统铜缆在长距离、高带宽场景下的性能限制。其核心产品Photonic Fabric支持100卡集群的高密度光纤互连,带宽可达28.8 Tbps,延迟低于150 ns,功耗仅<2.5pJ/bit,目标成本<$0.035/Gbps。他们的智能流量管理系统,结合硬件加速与软件算法,动态优化跨子集群的集体通信(如All - Reduce、All - Gather),尤其是内存的管理。

Celestial AI公司

发现,大约85%的流量实际上是子集群之间的集合通信流量。这是一个很有价值的发现,它对于接下来要讨论的聚合点概念更具实际意义。这里左右两边的示意图都代表了256个GPU全互连的情况。但大家可以想象,要将每个GPU与其他子集群中的任何一个GPU相连是非常困难的,因此聚合点是必要的。

子集群之间用于参数交换和集合通信的流量,占总流量需求的三分之二。如果在数据从一个子集群发送到另一个子集群之前对数据进行一些处理,就可以降低子集群之间的带宽需求。因此,超额配置或逐渐减少带宽需求的概念是有意义的。

通过这种方式,可以利用多个这样的子集群,每次16个,构建一个拥有100万个GPU的超级集群。但要注意,全对全连接是不可行的,因此像All-gather、All-reduce,以及引入聚合点的概念就非常必要,这些操作还包括快照、检查点、嵌入等。基本上,这些聚合区域可以作为数据分层、内存服务器和集合执行单元。

这里的一个示例图展示了一个与之前提到的GPU分组类似的结构,在这个组合中可能包含多个这样的交换机。它可以是专门用于连接多个CPU的GPU或xPU,以及一组内存和存储元件,代表每个子集群进行操作。这样一来,超级集群就变成了计算子集群和内存集群的集合,在这个庞大的层级结构中发挥各自的作用。

这个示意图展示了一个子集群通过“胖管道”与另一个子集群通过光进行互连,“胖管道”具有非常高的带宽。每个聚合点可以包含其他元素,如内存或作为参数服务器的计算处理单元,用于处理所有的嵌入操作和规约点,帮助减少从一个子集群到另一个子集群所需的带宽。

综上所述,如果要构建100万个xPU的系统,需要一个庞大的网络交换机和内存层级结构。有很多人在研究这些课题,三星参与了开放计算项目(OCP),在服务器项目以及OCP AI协同设计的几个子项目中,有一群优秀的人正在致力于解决这些问题。

四、结论

三星Stargate项目通过原生互连、分层网络架构及内存优化,为百万级AI集群的构建提供了可行路径。其核心在于跨领域协作、技术融合与系统级创新。未来,随着光子技术、Chiplet封装及开放生态的发展,AI基础设施将迈向更高性能、更低成本的新纪元。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-03-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 光芯 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档