

◆ AI基础设施的互连危机:效率与成本的双重挑战
当前AI行业正面临着一个根本性的矛盾:一方面,AI技术为人类带来了巨大的价值,自动化、安全防护等应用场景不断拓展;另一方面,高端AI能力与普通用户之间存在着巨大的鸿沟,而这一鸿沟的核心在于AI基础设施的效率低下和成本高昂。

演讲中指出,目前数据中心的模型浮点运算利用率(MFU)仅为38%至43%,这意味着超过一半的计算资源处于闲置状态。在导致资源闲置的众多因素中,通信开销占据了首要位置,同时还存在链路抖动、性能不稳定等一系列问题。

从更宏观的角度来看,AI计算的扩展呈现出一种分形模式:从晶体管网络到芯片,再到chiplet、板卡、机架,最终到集群和数据中心。然而,这种扩展模式正遭遇物理定律的严峻挑战。根据Rent法则,芯片的逻辑面积呈二次方增长,而IO带宽仅随芯片周长线性增长,这导致计算能力的提升速度远远超过了IO能力的提升速度。
与此同时,铜互连技术也正在逼近其物理极限。当SerDes速率从112Gbps提升到224Gbps再到448Gbps时,铜缆的信号传播问题变得日益严重。为了解决这些问题,不得不采用更昂贵的主板材料(如Megtron 9)、双轴电缆等特殊技术,这进一步推高了基础设施的整体成本。当基础设施成本的增长速度超过性能提升速度时,整个行业的效率就会陷入停滞。
◆ 传统解决方案的局限性与光子学的机遇
面对互连瓶颈,行业已经尝试了多种解决方案,但都存在各自的局限性。传统的可插拔光模块面临着面板密度瓶颈和高功耗问题;而共封装光学(CPO)虽然解决了电迹长度问题,但却将敏感的激光光源暴露在ASIC产生的巨大热量中,严重影响了系统的可靠性、可用性和可维护性(RAS)。

在这种背景下,光子学被认为是解决AI互连危机的关键技术。光子互连具有高带宽、低延迟、低功耗等天然优势,能够突破铜互连的物理限制。然而,目前光子学行业也存在着严重的碎片化问题:市场上有超过50家公司提供各种优秀的光子技术产品,但这些产品大多是一次性的、孤立的解决方案,缺乏统一的标准和规范。
这种碎片化的局面与服务器行业形成了鲜明对比。服务器行业同样有50多家公司参与,但它们都遵循统一的标准和规范,从而形成了一个健康、高效的生态系统。Lightmatter认为,光子学行业也需要走同样的道路,通过开放合作和标准化,释放技术的全部潜力。
◆ Open AI Fabric:四大支柱构建开放光子基础设施
基于这一理念,Lightmatter联合一批志同道合的公司,于2025年12月至2026年1月启动了Open AI Fabric项目。该项目的核心目标是基于现有的OCP MHS平台,开发一个开放、模块化、可扩展的光子交换参考架构,为行业提供一个"芯片时代的USB接口"。

Open AI Fabric参考架构建立在四大支柱之上,完全对齐IEEE 802.3和OIF的技术路线图,针对200G每通道的信令进行了优化,并充分考虑了向解耦式chiplet设计的转型。
1. 多层混合堆叠架构
Open AI Fabric提出了一种创新的多层混合堆叠架构,将下一代OAM(OCP Accelerator Module)定义为一个混合3D堆叠,而不是传统的PCB。该架构分为三个功能层:
- 第一层(底层):实用RDL层,负责电源传输、接地、边带信号(I2C/GPIO)和PCIe控制。该层将特定ASIC的凸点映射适配到标准的OAM引脚输出,为上层提供统一的接口。
- 第二层(中间层):高速数据中介层,处理所有超过100G的数据流量。该层采用任意到任意的光学网状路由,并为模块化设计预留了空间。
- 第三层(顶层):逻辑层,集成ASIC和HBM内存,专注于计算任务。
这种分层架构自然地根据带宽需求对内存流量进行了分离:HBM内存保持本地、低延迟的访问特性;近内存处理(PNM)chiplet和高带宽闪存池可以利用光子中介层,打破了邻近性约束;而CXL内存则通过实用层进行路由,提供可扩展、低延迟的访问。
2. 激光与ASIC的热解耦设计
Open AI Fabric的一个关键创新是采用了OIF兼容的ELSFP(外部激光小尺寸可插拔)模块和/或XPO MSA技术,将激光光源与中央计算复合体进行物理和热隔离。

这一设计解决了CPO技术面临的最大挑战之一——激光的热管理问题。在传统CPO方案中,激光与ASIC封装在一起,ASIC产生的高温会严重影响激光的性能和寿命。而在Open AI Fabric架构中,激光被放置在独立的ELSFP模块中,可以单独进行冷却,甚至支持液冷。同时,ELSFP模块支持现场更换,大大提高了系统的可维护性。
3. 高基数交换设计
为了实现更低的token成本,Open AI Fabric将高基数交换作为核心设计原则之一。项目团队的目标是实现1024基数的交换能力,每通道速率超过400Gbps。

为了支持这一目标,架构对系统托盘的布局进行了全面优化:前面板采用模块化设计,允许用户根据需要选择不同类型的连接器(包括XPO和非XPO连接器);定义了ELSFP模块的标准安装位置和冷却方式;为光学shuffle预留了标准的安装空间;同时还规范了理想的电缆路由、连接器类型、损耗要求等一系列细节。
特别值得一提的是,项目团队正在开发背板盲配光纤连接器技术。这是一个极具挑战性的技术难题,但一旦实现,将为系统设计提供更大的灵活性,支持全前向访问或后向访问等多种部署模式。
4. 全栈开放与互操作性
Open AI Fabric不仅关注硬件设计,还致力于构建一个完整的开放软件栈。架构支持SAI(交换抽象接口),实现软件定义的控制,为横向扩展的互操作性和纵向扩展的低延迟提供了统一的编程接口。

同时,架构充分利用了Open Chiplet Economy(开放芯片生态)的成果,定义了开放芯片管理接口(OCMI),支持boot、地址转换、系统管理和安全等功能。在物理层,架构支持多种chiplet间通信协议,包括UCle、BoW、I3C/I2C等。
这种分层的互操作性设计确保了系统的平滑升级路径:今天可以使用铜高速IO,未来可以无缝迁移到光子中介层,而无需重新设计ASIC或修改实用层。
◆ 系统级影响与经济效益
Open AI Fabric架构的实施将为AI基础设施带来全方位的提升。在技术层面,它同时解决了多个长期存在的矛盾:CPO确保了200G信号的完整性,而ELSFP则缓解了CPO对激光的热影响;前面板可以实现最大的光纤密度,同时高故障率的激光组件保持热插拔能力;架构既满足了纵向扩展的低延迟需求,又保留了标准以太网横向扩展的灵活性。

在经济层面,Open AI Fabric将带来显著的成本节约和效率提升。根据演讲中提供的数据,该架构有望将数据中心的MFU从目前的38%-43%提升到65%左右。这一提升将直接转化为token成本的大幅下降,从而形成一个良性循环:更便宜的token将刺激更多的需求,而更大的规模又将进一步降低成本。
此外,架构还将带来其他一系列经济效益:系统层数减少40%以上;每千瓦功率支持的计算密度提高200倍;平均无故障时间(MTBF)提高5倍。这些改进将显著降低AI基础设施的总拥有成本(TCO)。
◆ 标准化计划与行业合作呼吁
Open AI Fabric项目目前正处于快速推进阶段。项目团队计划在近期发布一份愿景白皮书,随后将启动交换机和计算平台的基础规范制定工作。目标是在2026年第三季度完成面向公众评审的AI开放交换基础规范草案。
为了确保架构的开放性和广泛适用性,项目团队正在积极寻求与多个标准组织的合作,包括IEEE、OIF、SNIA等,致力于在链路架构、激光技术、互连标准和系统集成等各个层面实现协调统一。

演讲最后,Bijan Nowroozi向整个行业发出了合作呼吁。他表示,要解锁AI的全部潜力,需要构建更好的系统,而要构建更好的系统,就需要整合整个供应链的力量。项目团队特别需要在机械工程、热工程和光学工程等领域的专业知识支持。
◆ 结语
Open AI Fabric的提出标志着AI光子互连技术从碎片化的单点解决方案向标准化、开放化的系统架构迈出了重要一步。通过基于成熟的OCP MHS平台进行创新,该架构最大限度地保护了现有投资,同时为未来的技术升级预留了充足的空间。

随着AI模型规模的不断增长和应用场景的不断拓展,互连瓶颈将成为制约行业发展的关键因素。Open AI Fabric为解决这一问题提供了一个清晰、可行的路线图。如果能够得到行业的广泛采纳和支持,它有望成为下一代AI基础设施的标准,推动AI技术向更高效、更普惠的方向发展。