01
能耗几何?
数据和算力是驱动本轮AI技术飞速发展的主要引擎,只要关注AI产业,都能明确感受到海量数据和大算力芯片对“百模大战”的影响力。而AI在给人类生产过程带来巨大变革的同时,也给全球电力系统带来了巨大挑战。
AI到底有多耗电?2020年,OpenAI预训练GPT-3这样的大语言模型参数达到1750亿,需要将近1300兆瓦时的电力,相当于130万度电,足够130个美国家庭的用一年;前面还只是训练大模型的用电量,ChatGPT现在每天还要消耗50万千瓦时的电力来回应用户超2亿个需求,已经是美国家庭平均每天用电量(27千瓦时)的1.7万多倍。
而GPT预训练所需的参数已经从1750亿,提高至GPT-4的1.8万亿,再到GPT-5即将突破的10万亿,意味着只要生成式AI应用的范围越来越广,耗电量只会节节攀升。
部分大模型训练参数数据
民生已经共此凉热。4月初美国劳工部公布的数据显示,美国电力价格今年3月已经同比上涨了5%,涨幅超过汽油,而导致电价上涨的主要因素正是AI新增的电力需求。
标准普尔全球副主席耶金(Dan Yergin)认为,近两年美国电力需求激增,AI和各类数据中心的电力需求增长最为迅猛,但美国目前的发电能力远不及需求,鉴于电力项目审批许可时间较长,短期内美国电力供给短缺的情况很难改善。
深入业界发展前沿的头部企业更是对此感知明显,今年2月,特斯拉创始人埃隆·马斯克在博世集团举办的“博世物联网大会”上表示,AI的束缚是可以预测的,“一年前我预测会缺硅,也就是芯片短缺,下一个就是电力。可能到明年我们就没有足够的电力来运行所有芯片了”。
此前,OpenAI的CEO山姆·奥特曼也看好核聚变和核裂变发电厂的建设,他指出AI将消耗比人类想象中还要多的电力,未来必须实现能源突破,才能支持AI的迭代。
如果光是罗列数据,可能还是有些抽象,到底为什么处理参数信息、AI聊天机器人会和能源扯上关系?这就要从处理信息产生的热量说起。
02
永恒的热量消耗
“处理信息有能量成本”的最佳证明,就是电脑工作时产生的热量。计算机在运行时会发热这已经是众所周知的现象,而这正是由计算机的工作原理所决定的。
1961年,IBM公司的物理学家罗尔夫·兰道尔(Rolf Landauer)曾经在论文中计算过一台“完美计算机”的理论效率,这台计算机理论上在对抗阻力方面没有损耗能量。但是即便有这么一台计算机,也一定会浪费一些能量,因为计算机也是一种机器——只不过是以字节的形式储存和处理信息——只要是机器,就必然会遵循热力学第二定律,即在任何封闭系统中,无序状态(一种被称为熵的量)总在增加。
兰道尔原理认为,即使是最简单的计算过程,也必然会产生热力学消耗
现有的经典计算机几乎都是不可逆计算机,信息处理的操作逻辑上不可逆的,也就意味着信息不断消失也会导致物理世界中熵的增加,从而消耗能量。兰道尔认为,熵的减少只能用能量来交换。
根据他的计算,即使是最简单的计算过程,比如删除一个字节,也必然会产生一个微小的热力学消耗。换句话说,当计算机中存储的信息发生不可逆的变化时,会向周围环境散发微量热量。
当然,它散发的热量也和计算机当时所处的温度有关:温度越高,散发的热量越多,这也是为什么现在数据中心的服务器都会配备相应的冷却系统,让热量通过水冷系统释放出来。
现在的电子计算机在执行计算任务时,实际消耗的能量其实是兰道尔所计算的理论值的数亿倍,科研人员也一直在寻找更高效的计算方法来降低这个能耗成本,比如对室温超导材料的不懈追求。
超导材料具有零电阻导电的特性,电流在其中可以无能量损耗地流动,这意味着在超导材料中构建的电路不会产生热量,从而也就把处理信息所需的能量成本全部消解了;“室温”超导则意味着它也无需极低温度的制冷设施,而这些制冷设备通常也会消耗大量能量。
放到AI大模型中,我们可以从兰道尔原理中推导出一个很简单的推论:模型的参数量越大、需要处理的数据越多,所需的计算量、所消耗的能量也就越大,释放的热量也就越多。在大模型预训练阶段,首先需要“喂”给计算机大量处理标记过的文本数据;然后在精心调校的模型架构中,处理输入的数据,尝试生成输出;根据输出成果与预想中的效果的差异,再反复调整模型参数。
不同AI应用方向每一千次查询需要消耗的电量
在大模型接入具体应用面向C端开放时,它的推理电费账单要远高于训练,根据施耐德电气测算,数据中心的AI负载有80%来自推理阶段,只有20%来自训练。推理阶段会先载入已经训练好的模型参数,预处理需要推理的文本数据,再让模型根据学习到的语言规律生成输出。总的来说,无论哪个阶段,对于计算机来说都是一连串信息重组的过程。
但这种由于信息增加带来的热量消耗在AI能耗中还只是九牛一毛,更大的消耗还在集成电路中。
03
芯片之果
集成电路也就是芯片,在信息处理过程中,电流因在芯片中受到阻碍会产生电力消耗,并会以热量的形式表现出来。
在以纳米为单位的芯片上,往往有数亿个晶体管协同工作,这些晶体管可以看做是由电压控制的极微小的开关,把它们全部串联或并联在一起就可以实现逻辑运算,“开”“关”两种状态即代表“0”“1”,也就是计算机二进制的基础。
欧姆定律告诉我们,通过控制电压变化,我们可以改变电子的流入和流出,也就构成了电流,同时也总会有电阻的产生;焦耳定律又证明,产生的热量与电流的平方成正比,也与导体电阻和通电时间成正比。尽管单个晶体管十分微小,能产生的热量不高,但光是英伟达A100 GPU上就拥有540亿个晶体管,再微弱的热量放置于这个规模背景下都相当庞大。
“如果在美国一个州放置超过10万片英伟达H100 GPU,那那个州的电网会立刻崩溃。”这是微软一名工程师前段时间对媒体透露的信息,他的工作恰好是在微软和OpenAI共同建立的数据中心训练新的GPT-6大模型。
英伟达H100 GPU的性能要比ChatGPT最初所用的A100强大得多:H100是专为AI计算设计,集成了800亿个晶体管,针对GPT等大模型的基本架构Transformer搭载了优化引擎,让大模型训练速度提高6倍,能耗方面也不遑多让。
市场调研机构Factorial Funds的报告显示,OpenAI的文生视频模型Sora在流量峰值期间需要至少72万块H100,每块H100功耗大约700瓦,可以提供高达60 TFLOPs的理论峰值性能,也就是每秒钟可以进行60万亿次单精度浮点数的运算,每次运算又涉及到许多个晶体管的开关。
为什么我们需要越来越多计算能力强大的GPU来训练AI?这就又回到了开头,因为大模型的规模实在太大,参数能达到万亿级别。所需的数据集也需要反复迭代,每次都需要计算和调整里面数百上千亿个参数的值,晶体管不断开关,能耗不也就来了?
解决这个问题的方法之一是改变硬件的物理特性,突破摩尔定律的限制。这个我们之前的文章中也提过,那就是把现代计算机的基础“硅芯片”,替换为某些新材料,比如石墨烯、碳纳米管等“碳基”芯片。要么,就向外寻求能源的突破。“人造太阳”还太远,不如先押注风光电和储能技术的升级。
邮发代号:77-19
单价:8元,年价:408元
编辑|张毅
审核|吴新
领取专属 10元无门槛券
私享最新 技术干货