首页
学习
活动
专区
圈层
工具
发布

训练一个大模型,30%的电费其实没花在算力上

很多人以为,AI数据中心最烧钱的是GPU H100,一颗700瓦,几万颗一起跑,电费看起来确实夸张。但如果你看过真实的超大规模数据中心能耗结构,会发现一个更反常识的结果:

差不多30%的IT电力,并不是花在算力上,而是花在“算力之间的通信”上。你以为电费在“算模型”,其实有三分之一在“让模型互相说话”。

一、AI真正的瓶颈,已经不是算力了

过去大家比的是:GPU更快,算力更多,集群更大。但现在AI训练进入一个新阶段:万卡 十万卡级别集群,问题变了。不再是“能不能算”,而是:这些GPU之间,能不能及时把数据传过去。

在大模型训练里,通信量增长速度,甚至比算力还快。于是一个很现实的情况出现:GPU还在进化,网络和光互联,先顶不住。交换机、路由器、光模块,开始变成新的“电老虎”。

二、光模块快到极限了,于是CPO被推上台前

传统数据中心的结构是这样的:GPU PCIe 交换机 光模块 光纤。问题出在“光模块”这一层。

因为高速信号要在PCB上跑一段距离:

频率越高 损耗越大

功耗越高 发热越严重

速率越快 稳定性越差

结果就是:不是算力不够,是电信号跑不动,于是CPO被推出来。

它的思路很直接:把光模块“拆掉外壳”,直接放进芯片封装里。让电信号只跑几毫米,然后立刻变成光信号离开。

从工程角度看,CPO不是升级光模块,而是把“外接显卡”直接焊进主板芯片里。在理想状态下,单位带宽功耗可以下降30%~50%。对数据中心来说,这不是优化问题,是生存问题——因为电费已经开始成为扩张瓶颈。

三、但CPO真正难的,不是光,而是“热”和“时间”

很多人以为CPO难在光器件,其实不是。

真正的难点有两个:

1)热:以前光模块是“可插拔”的,坏了换一个就行。

但CPO是“焊死在封装里的”:光引擎 + ASIC + 封装基板,全部挤在一起发热。

结果就是:一个温度漂移,可能影响整个链路稳定性。

2)时间:这一步很多人忽略。

传统系统里:

光模块有自己的时钟

交换芯片有自己的时钟

各自“分开跑”

但CPO之后变成:同一个封装内,共用一个时间基准,问题瞬间升级。

因为任何微小的抖动(jitter)、相位噪声、时钟漂移,都会直接影响光信号输出。

以前是“不同步可以调整”,现在是“不同步直接出错”。

这也是为什么行业开始发现:传统单端晶振,在CPO架构里已经不够用。

四、时钟开始从“辅助器件”,变成系统底座

进入800G光模块之后,时钟要求已经明显变严:

必须差分输出(LVDS / HCSL / LVPECL)

抖动要压到皮秒级

温漂要控制在±10ppm甚至更严

全温区不能漂

而到了CPO阶段,问题进一步升级:光引擎数量增加,时钟节点翻倍,封装空间反而更小

于是现实:系统越先进,留给时钟的空间越少,但要求越高。

在这种结构下,像晶科鑫SJK这类晶振厂商的角色,变得很微妙:它不再只是“提供频率”,而是:决定系统能不能稳定跑在这个频率上。

五、一个容易被忽略的事实:AI系统其实是“时间系统”

回头看整个链路:

GPU负责算力

光互联负责传输

CPO负责压缩路径

而晶振/时钟负责一件更底层的事:让所有计算发生在同一个时间坐标系里。

很多AI系统问题,最后不是算力问题,也不是带宽问题,而是:同步漂移,时钟抖动

时间误差累积。

六、真正的瓶颈,不在“更快”,而在“是否同频”

AI算力还在增长,但增长方式已经变了。从“单点更强”,变成“系统更密”。

而系统一旦变密,有一个问题会被放大:所有东西必须在同一个时间上工作。

CPO解决的是“距离问题”,

光互联解决的是“带宽问题”,

而真正底层的问题是:时间是否一致。

所以回头看那句容易被忽略的数据:电费里30%不在算力,而在通信。

它背后真正的含义是:AI已经不只是算力竞争,而是一个“互联 + 时间系统”的竞争。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/Oz5YJKto5UPtEAbKbFrzP0Xw0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

领券