
当前GPU的scale-up互联主要通过铜缆实现,而随着AI集群规模的逐渐扩大,需要实现跨机柜的GPU互联,铜缆在传输距离上的局限性愈发凸显,使用光互连成为行业发展的共识与必然趋势。3月12日,OCI(Optical Compute Interconnect) MSA组织宣布成立,并发布了第一版specs。OCI的创始成员包括AMD、Broadcom、Meta、Microsoft、Nvidia和OpenAI这六大巨头,芯片设计公司与云厂商各占一半。这篇笔记,小豆芽主要聊一聊这一新鲜出炉的MSA。
OCI官网(https://oci-msa.org)给出了其成立的主要目的,分为三点:
根据光引擎与ASIC的不同集成方式,OCI(计算光互联)的应用场景主要可分为三类,如下图所示,即OBO(on-board optics, OE光引擎通过PCB主板与ASIC芯片互联)、NPO(near-packaged optics,OE光引擎与ASIC芯片封装在同一个基板上)、CPO(co-packaged optics, OE与ASIC芯片封装在同一个interposer上)。伴随着ASIC与OE之间的连接距离缩短,能耗也相应降低。三种方案中都采用外置的激光器模块(ELS, external laser source)。

为了提高带宽密度,减小光纤数目,OCI采用了新型的光路链路结构,如下图所示。光信号采用两组CWDM波长,中心波长分别为1311nm与1331nm,对应下图中的group A和group B。每一组波长又细分为4个DWDM波长,group A中相应的4组波长为1308/1310.28/1312.58/1314.88nm, group B则对应1327.69/1330.25/1332.41/1334.78nm, 波长间隔为400GHz。

同一个光纤中进行双向光信号(bidirection)的传输,type A对端连接的是type B,如下图所示。每个光引擎包括Type A和Type B这两种类型的端口。Type A发送编码在group A四个DWDM波长的光信号,传递到对端的Type B处,而对端的Type B则发送由group B四个波长编码的光信号,通过同一根光纤,传递到Type A处。

信号的调制速率为53.12Gbps, 编码方式为NRZ。相较于以太网单波200Gbps的速率要求,OCI采用了更低的信道速率,也并未采用PAM4编码形式。这主要是为了降低系统复杂度,满足scale-up互联对功耗与延迟的需求。PAM4编码通常需要采用FEC方式对高速信号进行额外的处理,带来了额外的功耗与延迟。
OCI中明确提出了使用微环方案,这也是微环方案首次出现在MSA中。整个光学链路的简单示意图大致如下图所示,图中的Interleaver对group A/B的波长进行基于CWDM通道间隔的分波与合波,而微环本身则对4个DWDM波长进行分波合波。

电气接口方面,单个200Gbps的串行数据会被解复用成4个53Gbps NRZ的信号,两者之间满足1比4的关系。因此对于这四个由同一组DWDM波长编码的信号,四个通道间的skew需要进行严格控制。OCI定义了deskew的training/release pattern, 每次初始化时会先通过这些pattern数据进行link training,根据结果对Rx处的硬件进行skew调整,引入delay进行补偿。Deskew过程完成后,再开始进行真实数据的传输。最大可支持的skew调节范围为7个UI, 对应130ps。
光学性能方面,OCI定义了单个波长通道的Tx输出光功率不超过0dBm, 每组波长的总光功率不超过6dBm。这一要求主要是光功率太高,微环中会产生self-heating效应,导致OMA偏小。不同通道的OMA差异需要小于3dB。

Rx处定义了光功率的范围[-11dBm, 0dBm], BER floor最大为1e-6。

ELS激光器方面,没有特别规定出光功率,RIN最小值为-144dB/Hz,线宽最大为1MHz,单个通道的波长精度为±0.2nm。ELS模块需通过保偏光纤与硅光芯片相连。目前ELS激光器大都为1310nm单一波长,针对DWDM波长的激光器则需要单独定制,成本较高。Ayar Labs和Lightmatter两家公司此前都分别针对DWDM波长进行过相关激光器模块的开发。

以上是对OCI MSA内容的简单整理,对于scale-up互联场景,产业界明确选择了硅光的微环方案和外置激光器ELS模块,采用两组CWDM波段,共使用8个DWDM波长,单个波长的信号速率为56Gbps NRZ,并没有追求单lane的高速率。光纤中采用BiDi的光信号传输方式,单根光纤双向总带宽为448Gbps。OCI MSA并没有明确具体的结构信息与协议信息,只是明确了scale-up互联中的物理层方案,包括电气接口与光学架构。OCI MSA体现了scale-up互联场景中延迟和功耗的重要性。由于采用NRZ格式,电路上做了减法,Serdes可以做相应的设计调整,进一步降低功耗,而因为采用了DWDM方案,光学上则增加了设计复杂度,包括CWDM/DWDM的波分复用、通道间的一致性等。不同波长通道间的deskew将会是技术上的一个难点,需要进行光电协同设计,精确控制每一个通道的延迟。此外,微环本身的设计与工作波长追踪锁定,也是技术上的一个难点。微环方案正逐步被产业界采纳,进入商业化产品中。
文章中如果有任何错误和不严谨之处,还望大家不吝指出,欢迎大家留言讨论。