首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Semianalysis共封装光学(CPO)专题报告(四):当下与未来的共封装光学(CPO)产品

Semianalysis共封装光学(CPO)专题报告(四):当下与未来的共封装光学(CPO)产品

作者头像
光芯
发布2026-01-13 15:29:26
发布2026-01-13 15:29:26
1.1K0
举报
文章被收录于专栏:光芯前沿光芯前沿
文章来源:https://newsletter.semianalysis.com/p/co-packaged-optics-cpo-book-scaling

本部分将首先介绍当前及即将上市的CPO产品——从英伟达和博通的产品组合开始,再详细阐述各专注于CPO的公司的解决方案,包括英特尔CPO、联发科(MediaTek)的CPO布局、Ayar Labs、Nubis、Celestial AI、Lightmatter、Xscape Photonics、Ranovus和Scintil,并分析每家公司方案的核心优劣;

◆ 头部厂商CPO产品

① 英伟达(Nvidia)CPO

2025年GTC大会上,英伟达首次推出了用于scale out网络的基于CPO的交换机,共发布三款不同的CPO交换机。这里将逐一介绍,首先通过表格汇总关键规格:

英伟达CPO产品路线图

Quantum-X Photonics

首款上市的CPO交换机是2025年下半年推出的Quantum X800-Q3450,配备144个物理MPO端口,支持144个逻辑800G端口或72个逻辑1.6T端口,聚合带宽达115.2太比特/秒。

Quantum X800-Q3450通过采用四个28.8Tbps带宽的Quantum-X800 ASIC芯片,以多平面配置实现了这种高基数和高聚合带宽。在这种多平面配置中,每个物理端口连接至四个交换机ASIC中的每一个,允许任何物理端口通过四个不同的交换机ASIC,将数据分散到所有四个200G通道上,从而与其他物理端口通信。

就三层网络的最大集群规模而言,这与理论上使用四倍数量的28.8Tbps交换机盒(逻辑端口尺寸为200G)的结果相同——两者均支持最大746,496个GPU的集群规模。不同之处在于,使用X800-Q3400交换机时,数据shuffle在交换机盒内部完成;而使用独立的28.8Tbps交换机盒搭建相同网络,则需要更多的单独光纤电缆连接到更多目的地。

Quantum X800-Q3400 115.2T CPO交换机盒结构

Quantum-X800-Q3450中的每个ASIC周围环绕着六个可拆卸的光学子组件,每个子组件包含三个光引擎——每个光引擎提供1.6T的带宽,因此每个ASIC的光引擎总数为18个,聚合光带宽达28.8T。需要说明的是,这些子组件是可拆卸的,因此严格来说,纯粹主义者可能认为这在技术上属于“近封装光学(NPO)”,而非严格意义上的“共封装光学(CPO)”——不过,SA认为可拆卸光引擎带来的额外信号损耗,不会对性能产生显著影响。

Quantum-X800 ASIC关键参数

每个光引擎配备8个电通道和8个光通道:电侧采用200G PAM4 serdes驱动;光侧采用8个微环调制器(MRM),通过PAM4调制实现每个调制器200G的速率。这一设计选择是此次发布的一大亮点——表明英伟达和台积电能够量产200G MRM,这与如今最快的MZM相当,打破了行业认为MRM仅限于NRZ调制的认知,是英伟达令人印象深刻的工程成就。

硅光子引擎关键参数

每个光引擎集成了基于成熟N65工艺节点制造的光芯片PIC,以及基于先进N6节点制造的电芯片EIC。PIC采用较老的工艺节点,因为其包含调制器、波导和探测器等光学组件——这些器件无法从工艺缩放下获益,且在更大的几何尺寸下往往表现更好;相反,EIC包含驱动器、跨阻抗放大器(TIA)和控制逻辑,能从先进节点带来的更高晶体管密度和更优能效中显著获益。这两个芯片通过台积电COUPE平台实现混合键合,在光子域和电子域之间实现超短距离、高带宽的互联。

硅光子引擎制造细节

Quantum-X800-Q3450的ASIC上方配备两个铜质冷板,作为闭环液冷系统的一部分,可高效散热——连接冷板的黑色管道循环冷却液,帮助维持热稳定性。该冷却系统不仅对ASIC至关重要,对邻近的温度敏感型共封装光学组件也不可或缺。

Quantum-X800-Q3450冷却系统示意图

Spectrum-X Photonics

Spectrum-X Photonics计划于2026年下半年发布,将推出两款不同配置的产品:一款是以太网版本的X800-Q3450 CPO交换机,聚合带宽102.4T(Spectrum 6810);另一款是更大规模的Spectrum 6800,通过采用四个独立的Spectrum-6多芯片模块(MCM),聚合带宽达409.6T。

Quantum X800-Q3450 CPO交换机采用四个独立的交换机封装,以多平面配置连接至物理端口——每个交换机封装是一个单片芯片,包含28.8T交换机ASIC以及所需的serdes和其他电子组件。相比之下,Spectrum-X Photonics交换机的硅芯片是一个多芯片模块(MCM),中心是102.4T的交换机ASIC(掩模版尺寸更大),周围环绕着八个224G serdes IO芯片小体(每侧两个)。

每个Spectrum-X光子多芯片模块交换机封装将包含36个光引擎,采用英伟达第二代3.2太比特/秒光引擎——每个光引擎有16个200G光通道。需要说明的是,仅32个光引擎处于激活状态,额外4个作为冗余(以防光引擎故障)——这是因为光引擎焊接在基板上,不易更换。

每个IO芯片小体提供12.8T的单向总带宽(包含64个串并转换器通道),每个IO芯片小体连接4个光引擎——这使得Spectrum-X能够提供比Quantum-X Photonics高得多的聚合带宽,且串并转换器的岸线和面积更大。

Spectrum-X交换机结构示意图

Spectrum-X 6810交换机盒采用一个上述交换机封装,提供102.4T的聚合带宽;更大规模的Spectrum-X 6800交换机盒是一个高密度机箱,通过采用四个上述Spectrum-X交换机封装(同样以多平面配置连接至外部物理端口),实现409.6T的聚合带宽。

英伟达光子交换机系统亮点

与四个ASIC的115.2T Quantum X800-Q3450类似,Spectrum-X 6800通过内部分支,将每个端口物理连接至所有四个ASIC。

Spectrum 6800 409.6T CPO交换机盒结构

② 博通(Broadcom)CPO交换机产品组合

博通CPO产品路线图

博通是首批提供真正基于CPO的系统的公司之一,被视为CPO领域的领导者。博通第一代CPO设备Humboldt(代号“TH4-Humboldt”)主要作为概念验证,是一款25.6T以太网交换机,总容量在传统电连接和CPO之间平均分配——其中12.8T由四个3.2T光引擎处理,每个光引擎提供32个100Gbps通道。

这种铜缆与光学的混合设计具有一些典型应用场景:例如,架顶式(ToR)交换机通过电接口与邻近服务器进行短距离铜缆连接,同时通过光端口上行至下一级交换机;再如,在汇聚层,电端口用于互联机架内的各类交换机,光链路则延伸至上下层级的交换机。

TH4-Humboldt:第一代CPO系统产品亮点

在该设计中,博通采用了锗硅(SiGe)EIC,但在下一代产品(Bailly)中转向了CMOS。

TH4-Humboldt:硅光子PIC+锗硅(SiGe)EIC+硅通孔(TSV)结构

博通第二代CPO设备Bailly是一款51.2T以太网交换机——与第一代半光半电的设计不同,Bailly完全依赖光IO,包含八个6.4T光引擎,每个光引擎提供64个100Gbps通道。另一大显著变化是,取代锗硅(SiGe)EIC,采用了7nm CMOS EIC——转向CMOS EIC允许设计更复杂、集成度更高的控制逻辑,进而支持更多通道(从之前的32通道扩展至新光引擎的64通道)。

TH5-Bailly:第二代CPO系统产品亮点

第一代到第二代的另一大显著转变,是从硅通孔(TSV)工艺转向扇出晶圆级封装(FOWLP):在该设计中,EIC利用模内过孔(TMV)将信号路由至PIC,同时通过铜柱凸点连接至基板。采用FOWLP的主要原因是,该技术已在移动设备市场得到验证,且得到外包半导体组装与测试(OSAT)厂商的广泛支持,具有更强的可扩展性——日月光(ASE/SPIL)是该FOWLP工艺的OSAT合作伙伴。

TH5-Bailly:硅光子PIC+7纳米CMOS EIC+FOWLP封装结构

2024年Hot Chips大会上,博通展示了一项实验性设计:将6.4T光引擎与一个逻辑芯片、两个HBM堆叠和一个串并转换器芯片小体共封装。该公司提出采用扇出方案,将HBM放置在基板的东西两侧,从而在同一封装上为两个光引擎留出空间;通过从CoWoS-S转向CoWoS-L,基板边缘尺寸可超过100毫米,因此最多可容纳四个光引擎,实现51.2T的带宽。

扇出方案:“岸线”(Beachfront)vs “海岸线”(Oceanfront)

Scale up光互连“海岸线”密度路线图

今年,博通将推出基于Tomahawk 6的Davisson CPO交换机,包含16个6T光引擎——交换机ASIC基于台积电N3工艺制造,单封装带宽达102.4T/秒。博通采用Micas、Celestica等合同制造商(CM)进行机箱组装;此外,据报道,NTT Corp正采购博通TH6裸片,利用非博通供应的专有光引擎和光学解决方案,自行构建CPO系统——这一方案扩大了基于TH6的CPO系统的商业机会,推动了更开放的供应商生态系统。

博通TH6-Davisson 102.4太比特/秒以太网交换机亮点

- Davisson CPO支持200G每通道PAM4调制

- 16×6.4太比特/秒光引擎小体(DR光模块)

- 10U机箱,液冷(米卡思(Micas)制造)

正如SA认为CPO在Scale up架构中具有更大价值,SA也相信博通交付的首批量产CPO系统,将应用于客户的AI ASIC中。博通在CPO领域的经验,使其成为那些将CPO纳入中期ASIC路线图的客户的理想设计合作伙伴——据了解,这也是OpenAI选择博通的关键因素之一。

有趣的是,博通最大的ASIC客户谷歌(Google),是最犹豫在其数据中心部署CPO的超大规模数据中心运营商——谷歌的基础设施理念更注重可靠性而非绝对性能,而CPO的可靠性对他们而言是一个障碍。我们预计谷歌短期内不会采用CPO。

博通未来的CPO端点世代也将转向台积电COUPE平台——这一明确信号表明,COUPE提供的特性为带宽扩展提供了可行路径。这不仅是光引擎封装方式的改变,博通之前的产品采用端面耦合和MZM——这两种选择从实现角度来看更简单,但正如之前讨论的,可扩展性较差。COUPE更倾向于光栅耦合和MRM,这与博通现有的方案形成了巨大差异。尽管博通在CPO领域拥有最多经验,但这种技术方案的转变意味着,博通必须在某些技术方面重新开始——问题在于,台积电能为博通的设计提供多少支持,以降低设计难度。

③ 英特尔(Intel)的CPO路线图

英特尔CPO路线图(2023-2027)

英特尔在今年的英特尔代工厂直接连接大会(Intel Foundry Direct Connect)上公布了其CPO路线图,概述了四阶段发展计划:

1. 2023年:英特尔提出了先进电封装到封装IO互联的概念,作为光集成的前驱——该里程碑聚焦于实现芯片封装之间的高带宽、短距离电链路(绕过传统PCB走线),以支持多芯片系统;通过建立封装级IO基础设施,为后续集成光通道奠定基础。

2. 2024年:英特尔展示了第一代CPO解决方案,采用直接光纤连接——在该方案中,光引擎芯片小体直接与光纤耦合,无需外部连接器,简化了链路。2024年OFC大会上,英特尔展示了一款4Tbps(双向)光学计算互联(OCI)芯粒,与Xeon CPU共封装,通过单模光纤链路实现无差错数据传输,提供64个32 Gbps通道,光接口能效达约5pJ/bit。

3. 2025年:英特尔第二代CPO解决方案将采用可拆卸光学封装连接器,取代永久性光纤尾纤——英特尔工程师开发了一种玻璃光学桥,可插入封装侧面,内置3D波导和机械对准结构,实现封装上光子器件与标准光纤连接器的互联;这种光学封装连接器设计支持模块化组装,标志着向更具可维护性的可连接形态过渡。

4. 2027年:英特尔的目标是实现3D集成光子技术的突破——通过垂直扩展光束耦合,实现光子组件的垂直堆叠。在这款设想中的第三代设计中,光IO将通过短距离自由空间或玻璃内光路径,在芯片层之间(例如光子中介层与逻辑芯片之间)垂直路由;通过光在封装内的垂直耦合,英特尔旨在进一步减少电瓶颈,在本十年后半段实现超高带宽芯片小体结构。

④ 联发科(MediaTek)的CPO计划

作为定制ASIC设计公司,联发科正致力于将CPO能力集成到其设计平台中,旨在提供可与定制加速器无缝协作的PIC/EIC设计。联发科认为,在200G/lane这一代,近封装铜缆(NPC)是一种有效的解决方案(光纤间距>900微米);当数据速率升至200-300Gbps 范围时,更密集间距(>400微米)的共封装铜缆(CPC)可能更受青睐;然而,一旦速率达到400Gbps每通道或更高,转向CPO架构(光纤间距约130微米,互联IP更紧凑)可能成为必然选择。

◆ 专注于CPO的公司

尽管英伟达、博通和美满电子正沿着自己的路径开发专有解决方案,但多家专注于CPO的公司正在探索另一系列方案。这些公司面临的问题是,如何与主要的交换机硅芯片和GPU/ASIC提供商竞争——尤其是这些行业巨头大多已宣布或展示了专有解决方案。AMD是个例外:尚未展示任何CPO产品,但已知其正在内部开发光子IP。

对于Ayar Labs、Lightmatter、Celestial AI、Nubis、Ranovus等光引擎芯粒提供商而言,挑战在于超越现有厂商,提供足够有吸引力的解决方案以实现集成。Ayar Labs、Celestial AI和Ranovus提供完整的“闭环”系统,这意味着客户必须采用其端到端解决方案;相比之下,Nubis专注于更开放、基于标准的解决方案,旨在简化实现并降低采用门槛。另一方面,一些公司的产品路线图中包含更激进的方案——例如Lightmatter的光学中介层和Celestial AI的光子桥,这些解决方案需要对封装和主机硅设计进行根本性重新思考,才能充分释放其潜力。然而,这些方案也伴随着更高的成本和显著的不确定性,尤其是在与CMOS基硅的无缝集成和量产方面。

以下将逐一介绍这些公司的架构和市场化计划:

① Ayar Labs

Ayar Labs的核心产品是TeraPHY光引擎芯粒,可封装到加速器(XPU)、交换机ASIC或内存中。第一代TeraPHY的单向带宽达2太Tbps,功耗仅10W;第二代TeraPHY的单向带宽达4Tbps,是全球首款UCIe光重定时器芯粒——在芯粒内完成电光转换,将Host信号以光信号形式传输。UCIe的选择应该会吸引客户,因为它具有标准化接口,可轻松集成到客户的主机芯片中。

TeraPHY光IO芯片小体关键参数

Ayar Labs的前两代TeraPHY基于格芯(GlobalFoundries)45nm工艺制造,采用单片解决方案,集成电子和硅光子组件;第三代TeraPHY则转向台积电COUPE。环形调制器、波导和控制电路的紧密集成,有助于降低电损耗——但前两代采用的成熟单片工艺节点限制了EIC的性能,这也是前几代TeraPHY采用低调制速率的原因。

光IO的实现关键

第二代TeraPHY(代号“Eagle”)的单向带宽达4Tbps,集成八个512G bps IO端口,每个端口采用32Gbps NRZ × 16波长架构,通过MRM调制。外部激光源SuperNova由瑞典公司Sivers供应,通过DWDM将16个波长合并到一根光纤中。每个端口使用一对单模光纤用于发射(Tx)和接收(Rx),因此每个4Tbps芯粒共连接24根光纤——16根用于Rx/Tx,8根用于激光输入。该公司在封装过程中采用端面耦合(EC),但也支持光栅耦合(GC)。

关于芯粒的带宽扩展,该公司指出,随着连接器技术的进步,光纤密度(目前每个芯片小体24根)在未来几年有望翻倍;此外,通过提高每波长数据速率,每个端口/光纤的带宽也可翻倍,因此在近期路线图中,总带宽有望实现4倍扩展。

Ayar Labs 16波长SuperNova激光源

Ayar Labs的第三代TeraPHY转向台积电COUPE,每个光引擎的单向带宽超过第二代的3倍,达13.5Tbps——如下文Ayar Labs与Alchip合作的加速器解决方案所示,8个光引擎可为加速器解决方案提供约108Tbps的封装级Scale up总带宽。这一13.5+Tbps的带宽,是通过采用PAM4调制实现每个波长200Gbps的带宽达成的。

尽管Ayar Labs尚未披露确切的端口架构(即DWDM波长数量、每个FAU的光纤数量等),但其采用的双向光链路意味着,发射(Tx)和接收(Rx)最多需要约64根光纤,连接至外部激光源最多还需要数十根光纤。

不过,Ayar Labs的战略一直聚焦于WDM,这意味着每个FAU的总光纤数量可能低至32根。与前两代一样,第三代TeraPHY继续使用微环调制器,以保持光芯粒的紧凑尺寸,同时支持CWDM或DWDM作为未来带宽扩展的路径。

新型加速器(XPU):AI加速器未来合作方案

Ayar Labs还与Alchip和GUC合作,将其芯粒集成到Alchip和GUC的加速器解决方案中——上述示例展示了一款包含两个掩模版尺寸计算芯片和8个TeraPHY光引擎的加速器,单向带宽可达108Tbps。

2025年Hot Chips大会上,Ayar Labs分享了一项慢速热循环链路测试结果——在约4小时的热循环过程中(速率约5℃/分钟),链路误码率(BER)表现稳定。

系统工程验证测试(EVT):热循环链路测试

然而,研究MRM对温度快速变化的耐受性,与展示链路在宽温度范围内的长期稳定性同样重要。在同一Hot Chips演讲中,Ayar Labs解释称,由于没有能实际实现0-500W阶跃的封装上ASIC,他们选择通过扫描激光波长来模拟快速温度变化——控制电路检测环形谐振是否偏移(可能由入射激光波长变化或环形温度变化引起),因此以对应温度变化的速率扫描激光波长。例如,20nm/s的扫描速率可模拟0.2s内64℃的温度变化,相当于320℃/秒。该研究表明,温度变化速率高达800℃/秒时,仍未出现误码。

应用研究:共封装500W ASIC链路热瞬态

应用研究:高达800℃/秒的链路测试(模拟)

Ayar Labs拥有众多战略投资方,包括格芯(GlobalFoundries)、英特尔资本(Intel Capital)、英伟达(Nvidia)、AMD、台积电(TSMC)、洛克希德·马丁(Lockheed Martin)、应用材料(Applied Materials)和Downing等。

② Nubis

Nubis于2025年10月被Ciena收购。与Ayar Labs类似,Nubis提供可与客户主机硅芯片集成的光引擎芯粒,但重点关注单波长连接。Nubis致力于互操作性——包括协议和机械层面(即可插拔性),这也决定了其技术选择。此外,Nubis的使命是全面解决IO瓶颈,其解决方案涵盖光学和铜缆两类。

Nubis现有的光引擎产品是Vesta 100 1.6T NPX光引擎,这是一款可插拔模块,双向带宽达1.6Tbps,包含16个100G通道,占位面积为6×7mm。

与其他公司不同,Nubis选择使用MZM(马赫-曾德尔调制器),主要得益于该调制器的互操作性、可靠性和成熟度。另一大设计选择是,Nubis的产品兼容IEEE/OIF标准合规电接口——该公司认为,大多数ASIC开发商将继续采用这些技术。

Nubis的核心差异化优势在于光纤耦合方式:Nubis从PIC表面进行耦合,具体而言,使用一块薄玻璃辅助光纤的路由和对准。与边缘耦合(光纤连接至芯片边缘)不同,Nubis的2D光纤阵列方案是从硅光子芯片顶部连接光纤。

Nubis 2D光纤阵列结构示意图

尽管台积电等公司已将2D光纤阵列纳入路线图(垂直耦合的关键优势),但目前除Nubis外,尚无其他厂商实现量产——这是Nubis的独特之处,不过其他厂商计划后续转向2D阵列。

光纤向上延伸并侧向弯曲,采用住友电工(Sumitomo Electric)开发的特殊光纤“FlexBeamGuidE”,该光纤在90度弯曲时仍能保持高可靠性和低损耗。

与端面耦合相比,2D阵列的另一大优势是光纤连接数量的物理限制更小。如下列图表所示,采用Nubis的2D光纤阵列结构,可在ASIC周围部署多排光引擎——只要封装允许,就能提升带宽密度。

1D CPO vs Nubis 2D CPO带宽密度对比

2025年4月,Nubis宣布推出下一代PIC——一款16×200G每通道硅光子IC,单向岸线密度达0.5Tbps/mm(与电主机接口密度匹配)。此外,Nubis还宣布与Samtec合作,将采样一款32×200G(6.4Tbps)光模块,该模块与Samtec的Si-Fly HD共封装铜缆连接器即插兼容。与其他CPO方案相比,该方案实现了铜缆和光学的通用占位面积;随着时间推移,这有望构建一个开放的可插拔CPO生态系统。

最后,在铜缆领域,Nubis还在OFC大会上宣布并展示了其用于有源铜缆(ACC)的线性重驱动器芯片“Nitro”——该芯片可将200G铜缆的传输距离延长至数米。该产品是与安费诺(Amphenol)合作开发的,安费诺将基于Nitro线性重驱动器生产有源铜缆。

③ Celestial AI

Celestial AI是一家专注于AI scale up网络光互联解决方案的IP、产品和系统公司。该公司技术的核心目标是,将光子器件(调制器、光电探测器、波导等)集成到中介层中,并通过与外部的接口(带FAU的光栅耦合器)实现互联。如下列图表所示,这是Celestial AI的光子架构(Photonic Fabric™,PF)系列光互联解决方案的核心。

Celestial AI产品组合

Celestial AI的Photonic Fabric产品

Photonic Fabric (PF)芯粒是基于台积电5nm工艺的芯粒,集成了芯片间接口(如UCIe和MAX PHY),支持加速器间、加速器与交换机、加速器与内存的互联。客户可将这些芯粒与加速器共封装,相比基于电串并转换器接口的CPO产品,能提供更高的带宽密度和更低的功耗。Celestial AI根据客户特定的芯片间接口和协议,定制开发这些芯片小体——第一代PF芯片小体支持16Tbps带宽,第二代将提升至64Tbps。

光芯粒相比传统铜缆走线具有显著的功耗优势:224G线性serdes的传统铜缆,每比特功耗约5pJ,两端合计约10pJ/bit;而Celestial AI的解决方案,整个电光-电链路的功耗仅需约2.5pJ/bit(外加外部激光约0.7pJ/bit)。

接下来,PF光学多芯片互联桥(OMIB™)本质上是CoWoS-L或EMIB风格的封装解决方案——将光子技术直接集成到中介层的嵌入式桥中,使桥接能将数据直接传输至消耗点。与PF芯粒相比,OMIB提供更高的整体芯片带宽,且不受岸线限制。

在传统的金属互联中介层或基板中,将IO放置在芯片中心是不切实际的——这会导致路由复杂度极高,且高密度信号拥堵会引发严重的串扰问题。然而,借助OMIB光学中介层,Celestial AI能够将中介层直接部署在ASIC下方,绕过岸线限制,实现更快、更高效的数据传输,且串扰极小。

光学中介层允许IO放置在芯片的任何位置——因为光波导的信号衰减可忽略不计,打破了传统的岸线限制;此外,由于不同光波导中的光信号不会像密集铜缆走线中的电信号那样相互干扰(光信号被高度限制在波导核心内,包层外仅存在微弱的倏逝场),因此消除了串扰。这种对IO设计和放置的彻底重构,充分释放了光学技术的潜力。

OMIB(嵌入式PF光学多芯片互联桥)

Celestial AI的PF芯粒关键参数

光学中介层通过先进封装传输光信号的理念,与Lightmatter的解决方案有一定相似性——两者均在逻辑芯片下方路由光信号,从而避免岸线限制,但存在一些关键差异:Celestial AI采用类似硅桥(如CoWoS-L硅桥)的光子桥,而Lightmatter使用大型多掩模版光子中介层,部署在多个独立芯片下方。Lightmatter的概念更具雄心——其M1000 3D光子超级芯片的中介层尺寸目标达4000平方毫米,同时支持中介层内的光电路交换,总聚合带宽高达114Tbps。

光子架构链路(PFLink™)结构示意图

最后,Celestial AI提供光子架构内存设备(PFMA)——这是一款高带宽、低延迟的Scale up架构,集成网络内存,基于台积电5nm工艺,总带宽达115.2Tbps,可连接16个ASIC,每个ASIC的scale up带宽达7.2Tbps。值得注意的是,PFMA是全球首款芯片上光IO位于芯片中心的硅器件,将稀缺的外围物理IO留给内存控制器——这使PFMA成为主机CPU内存和存储之间的“热内存层”,适用于KV Cache卸载。

Celestial AI技术的核心差异化优势在于其采用的电吸收调制器(EAM)。本文第3部分已详细介绍了EAM的工作原理及其优势与权衡——此处再次强调,因为理解EAM的优缺点是理解Celestial AI市场化路径的关键:

与MRM(微环调制器)和MZM(马赫-曾德尔调制器)相比,EAM的优势:

1. 热稳定性:EAM和MRM均需控制逻辑和加热器来稳定温度变化,但EAM的热敏感性本质上更低。

相比MRM,EAM在50℃以上的热稳定性更优——MRM对温度极敏感,典型稳定性为70-90 pm/℃,2℃的温度变化会导致谐振偏移0.14nm,远超MRM性能崩溃的0.1nm阈值;而EAM可承受高达35℃的瞬时温度变化。这一耐受性对Celestial AI的方案至关重要——其EAM调制器部署在高功耗加速器下方的中介层中,加速器功耗可达数百瓦;此外,EAM还能承受约80℃的高环境温度,适用于部署在加速器旁(而非下方)的芯片小体应用。

2. 尺寸与功耗:与MZM相比,EAM尺寸小得多且功耗更低——MZM的较大尺寸需要高电压摆幅,需放大serdes以实现0-5V摆幅(MZM约12,000mm²,EAM约250mm²,MRM 25-225mm²);此外,MZM还需更多加热器功耗来维持大尺寸器件的所需偏置。

使用锗硅(GeSi)EAM用于CPO的缺点:

1. 可靠性担忧:基于硅或氮化硅的物理调制器结构(如MRM和MZM)被认为比锗硅基器件更耐用、更可靠。事实上,许多人担心锗硅基器件的可靠性——因其加工和集成难度大,但Celestial AI认为,锗硅基EAM本质上是光电探测器的反向结构,而光电探测器在如今的收发器中广泛应用,可靠性已得到验证。

2. 波长限制:锗硅调制器的带边天然位于C波段(1530-1565nm),设计量子阱将其转移至O波段(1260-1360nm)是极具挑战性的工程问题——这意味着锗硅基EAM可能只能形成闭环CPO系统,难以融入开放的芯片小体生态。

3. 激光生态:围绕C波段激光源构建生态,可能比利用成熟的O波段连续波(CW)激光源生态存在规模不经济问题。大多数数据通信激光为O波段设计,但Celestial AI指出,1577nm XGS-PON激光的产量相当可观——这类激光通常用于消费级光纤到户(FTTH)和企业互联。

4. 插入损耗与复用需求:锗硅EAM的插入损耗约4-5 dB,与MRM和MZM(3-5 dB)相当;但MRM可直接复用不同波长,而EAM需单独的复用器实现CWDM或DWDM,这会略微增加损耗预算。

总体而言,Celestial AI一直在创新其定制链路——不依赖任何Gearbox组件,提供更优的延迟和功耗效率,且支持多种协议自适应。如前所述,Celestial AI是唯一主要采用EAM进行调制的头部厂商——这意味着其需要将EAM设计集成到代工厂的工艺中,而其他CPO公司可依赖台积电COUPE(MRM及相关加热器已纳入PDK)。

Celestial AI硅光子技术差异化:调制器对比

短期内,Celestial AI为芯粒的发布制定了雄心勃勃的时间表。Marvell在交易摘要中宣布,预计到2028年1月底(Marvell 2028财年末,即F1/28),Celestial AI的营收年化率将达到5亿美元;在巴克莱全球技术大会上,Marvell进一步表示,这一年化率预计将在2028日历年年底翻倍至10亿美元(2028日历年的大部分时间属于Marvell 2029财年,即F1/29)——这意味着从现在到2027年底,该产品需实现商业可行性。

根据交易条款,Celestial AI的股权持有人还可获得最高22.5亿美元的或有对价——若Celestial AI在2029年1月底(Marvell 2029财年末,即F1/29)前的累计营收达到至少20亿美元,即可获得全额或有对价;其中,第一阶段里程碑为:截至2029年1月底累计营收达到5亿美元,可获得三分之一的或有对价。预计2029财年末实现10亿美元的营收年化率,仅达到盈利分成目标的一半——这意味着Celestial AI需要吸引更多客户下单,才能实现20亿美元的盈利分成目标。

Celestial AI收购交易摘要

作为Celestial AI收购交易的一部分,Marvell于2025年12月2日提交的8-K报告显示,已向亚马逊(Amazon.com, Inc.及其关联公司)发行认股权证,行权价格为87.0029美元,有效期至2030年12月31日——该认股权证的行权条件为“基于亚马逊在2030年12月31日前直接或间接采购PF产品的金额”,这强烈表明AWS的Trainium处理器将成为目标产品,预计于2027年末开始量产。在Marvell的行业分析师日上,Celestial AI透露,一家大型超大规模数据中心运营商已选择其光互联解决方案,用于将在该运营商下一代处理器中量产的先进AI系统——结合交易摘要中的盈利分成时间表和产品营收指引,这表明Celestial AI的目标是将其解决方案部署在Trainium 4中。

最后详细阐述Celestial AI即将上市的首款Scale up解决方案——基于16Tbps光子链路的芯粒方案:FAU通过光栅耦合器连接至通道波导;Scale up交换机ASIC(可能是Marvell的115.2Tbps scale upASIC)通过光子链路和PF芯粒与加速器(XPU)实现光互联。尽管Celestial AI预计其初期市场化收入主要来自芯粒,但该公司定位为系统公司,并已推出多款基于光学的内存扩展解决方案,将在首款scale up网络解决方案之后上市。

通过多个交换机层利用光学技术扩大scale up域规模,并非新概念——但显然尚未接近量产。此类概念的拓扑结构可能与GB200的NVL576概念相似,包含两个交换机层,各交换机层之间通过OSFP收发器模块和光纤连接。Celestial AI的多交换机层方案与之类似,但省去了实际的收发器。

然而,与NVL576概念的最大区别在于,纵向扩展ASIC可同时充当路由器和内存端点——而NVSwitch仅负责GPU间高带宽链路的路由。这一区别至关重要,因为Celestial AI的核心价值主张是,其scale up解决方案能够规避限制加速器可连接HBM堆叠数量的硅岸线约束。

为实现这一目标,加速器上连接的HBM堆叠被替换为连接至PF的芯粒,该芯粒接入共享HBM池——共享HBM池是PF设备(PFA),这是一款2U机架式系统,由16个PF ASIC组成,每个ASIC含一个端口。每个ASIC是2.5D 封装,集成两个36GB HBM3E内存和八个外部DDR5内存。

PF ASIC结构示意图

PF ASIC与光子中介层PIC集成示意图

从整体来看,每个PFA模块是16基数交换机,最多可支持16个加速器(XPU)。并非每个加速器都需连接至所有16个端口——全连接在交换机盒内部实现:每个交换机ASIC连接的FAU,将光纤扇出至16个交换机IO。因此,每个加速器仅需一根光纤连接至交换机盒外部的一个交换机端口。

加速器与PFA的连接示意图

通过将内存部署在加速器外部的共享交换接口中,数据被聚合后,由每个加速器通过全归约(all-reduce)通信协同操作,从共享内存池访问数据。

PFA的内存架构示意图

④ Lightmatter

Lightmatter以其光学中介层产品Passage™ M1000 3D光子超级芯片而闻名,同时也推出了多款解决方案,以适应CPO路线图的不同阶段——其多款芯粒已在台积电流片。

首款上市的解决方案是2026/2027年推出的近封装光学(NPO)光引擎:在NPO方案中,光引擎焊接至基板,通过铜缆将加速器上的LR serdes连接至光引擎。Lightmatter的NPO战略基于一个核心判断:超大规模数据中心运营商采用CPO的第一步,是先通过NPO积累运营经验——这降低了产品风险,因为超大规模数据中心运营商无需“承诺”CPO,可选择光学或铜缆纵向扩展解决方案,与加速器或交换机上的长距离串并转换器对接。

由于Lightmatter的光引擎解决方案基于台积电COUPE和格芯45nm SPCLO工艺,因此具备多种扩展路径:除了通过100Gbaud PAM4实现200Gbps(单向)每通道外,还可支持DWDM8的200Gbps PAM4,或DWDM16的100Gbps PAM4,实现每光纤3.2Tbps 带宽。

尽管其他一些CPO公司选择利用商用激光源生态,但Lightmatter已开发出自己的外部激光源“GUIDE”,目前已进入送样阶段。与其他将InP晶圆切割成独立激光二极管的激光源不同,GUIDE是行业首款超大规模光子(VLSP)激光——这是一类新型激光,将数百个InP激光集成到单个硅芯片上,支持高达50Tbps带宽。Lightmatter声称,其采用独特的控制技术管理这些InP激光,通过超额配置InP激光器数量,允许“自我修复”(替换正常工作的二极管),从而提升整体可靠性。例如,支持144个800G端口的英伟达Quantum-X CPO交换机需要18个外部激光源(ELS),而Lightmatter声称,两个GUIDE激光源即可满足相同的总带宽需求。

Lightmatter计划紧跟COUPE路线图,于2027-2028年正式推出CPO解决方案,随后在2029年及以后聚焦其旗舰产品Passage™ M1000。

Lightmatter的M1000 3D光子超级芯片,是一款4000mm²的光学中介层,部署在主机计算引擎下方,负责电信号到光信号的转换。M1000已在SC25大会上完成机架级现场演示,并作为参考设计对外提供。Passage采用硅通孔(TSV)在加速器和光引擎之间传输电信号和电源,并通过serdes实现两者的连接。通过将ASIC直接部署在光学中介层上,Passage省去了大型、高功耗的串并转换器,转而采用1024个紧凑、低功耗的serdes(尺寸约为传统串并转换器的1/8),实现总IO带宽114T(每个serdes运行在112吉比特/秒)。此外,ASIC直接部署在光学中介层上方,也消除了芯片岸线约束。

Lightmatter Passage™ 3D光子超级芯片结构示意图

该系统集成了内置光电路交换(OCS),用于管理冗余——在大规模系统中,若某条通信路径故障,流量可通过备用路径重新路由,确保运行不中断。此外,相邻的芯粒通过电信号连接(如UCIe接口),支持电通信。

Passage采用直径约15um的MRM(微环调制器),每个调制器集成一个电阻加热器,实现56Gbps NRZ调制。该模块包含16个水平总线,每个总线最多可承载16个波长——这些波长由GUIDE提供,在200GHz栅格上,每根光纤承载16个波长。

Passage采用256根光纤,每根光纤通过DWDM单向承载16个波长(或双向承载8个波长),实现每光纤1-1.6Tbps带宽。为提升良率,Lightmatter最大限度减少了芯片上连接的光纤数量,降低了复杂性和制造挑战;此外,还实现了一种光纤连接系统,允许故障光纤从面板上轻松断开并更换,提升了可靠性和可维护性。以下表格列出了Passage目前支持的不同工作模式:

Passage支持的工作模式

关于Passage的一个关键争议点,是其使用的MRM在热稳定性方面的表现——光学中介层直接部署在温度极高的加速器下方。相比之下,其他CPO方案并未将调制器部署在加速器正下方,因此热管理更简单。针对这一问题,Lightmatter解释称,Passage中MRM使用的控制环路,可应对2000℃/秒的温度变化,支持0-105℃的工作温度范围——也就是说,60-80℃的温度变化可在10ms内完成,且不会中断光链路。

SC25大会的演示视频展示了25-105℃的温度变化范围(宽工作温度),但这一80℃的变化耗时约1分钟——温度变化速率仅为1.33℃/秒;而SC25大会的另一项演示(使用片上热激励器),实现了2000℃/秒的变化速率,MRM稳定器加热器使MRM本身的温度变化速率控制在-2至+2℃/秒之间。

误码率(BER)与温度关系测试

⑤ Xscape Photonics

Xscape Photonics是一家创新型公司,其核心产品是可编程激光“ChromX”——支持4-16个波长,未来计划扩展至128个波长。通过提供最多128个不同波长,ChromX的带宽将显著高于现有仅支持4-8个波长的激光。ChromX依赖外部三五族(III-V)激光,搭配片上光频梳,生成用于WDM的多个波长。

Xscape Photonics首款产品:可编程多波长激光

这款激光的可编程特性,使其能够灵活提供不同波长,满足不同带宽和传输距离需求。有趣的是,该解决方案仅需一个激光——而现有CPO方案需要多个高功率、高功耗的激光;此外,所有波长通过单根光纤传输,避免了大多数CPO系统面临的多光纤耦合复杂性问题。

⑥ Ranovus

Ranovus专注于光芯粒和激光器设计制造,已通过多条路径流片产品——包括格芯的单片CPO产品(最初在AMF流片,后AMF被格芯收购),以及基于台积电COUPE的产品(集成不同几何尺寸的PIC和EIC)。

其Odin光引擎采用微环谐振器调制器,通过PAM4调制,可提供最多64个100Gbps通道。

Ranovus Odin光引擎与MediaTek ASIC共封装

Ranovus的市场化核心,是提供客户所需的互操作性解决方案——目前聚焦于100G PAM4 DR光模块,但微环谐振器调制器的使用,使其能够转向其他方案(如56吉波特 NRZ,通过WDM结合4个波长,实现每光纤对400G带宽)。

Ranovus已展示其800G芯片小体与AMD的互操作性,并与联发科(MediaTek)合作,将Odin直接驱动CPO 3.0作为芯粒解决方案,提供给超大规模数据中心运营商的下一代定制硅加速器。

⑦ Scintil

Scintil的核心产品是LEAF Light——一款光子系统级芯片(PSoC),可提供裸片(KGD)或模块形式,集成8或16个不同波长的激光,波长间距为200GHz或100GHz,通过DWDM实现单根光纤承载多个波长。该公司开发的电子控制系统,可在温度变化时,精确维持100GHz或200GHz的波长间距。OIF定义了ELSFP模块的封装参考设计(类似OSFP),使客户能够轻松集成这款外部激光源。Scintil的解决方案与基于环形调制器的共封装光学兼容性良好。

LEAF Light™集成激光源核心亮点

Scintil的工艺称为SHIP(Scintil异构集成光子学),其核心是通过晶圆级工艺,将三五族(III-V)激光集成到标准硅光子学中:

1. 首先,通过传统代工厂流程制造标准硅光子晶圆——包含波导、探测器和复用/解复用器;

2. 然后,将晶圆翻转并键合至新的承载基板,移除原始基板,露出埋氧层(BOX);

3. 随后,将未图案化的三五族材料键合至新暴露的表面;

4. 最后,通过光刻和蚀刻对三五族材料进行图案化,制造激光器——最终形成集成片上激光的单片硅光子芯片。

这与传统的基于InP的激光器形成鲜明对比——传统激光采用电子束写入进行图案化,难以实现DWDM所需的精确波长控制,因此难以支持窄间距通道。

Scintil SHIP工艺流程

开发DWDM DFB激光阵列具有一定挑战性,因为每个波长的频率必须精确生成。要实现100GHz的通道间距,需利用硅光子代工厂的先进能力和光刻工艺,精确且重复地在硅中图案化光栅;此外,由于激光在晶圆级制造,每个晶圆可制造数百个器件,支持大规模量产。

Scintil解决方案的一个关键优势是功耗效率:Scintil的解决方案可在单个芯片上生成并复用多个波长(8或16个),而其他方案使用多个独立激光加合束器/分束器,需要高功率激光才能实现目标复用颜色功率。与现有共封装解决方案(包括英伟达目前为Q3450 CPO交换机采用的方案)相比,Scintil的解决方案具有更优的功耗效率和更高的带宽密度,且每个传输比特所需的能量减少一半——现有方案采用单波长、高调制速度,而Scintil采用多波长、低调制速度。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-01-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 光芯 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档