
在AI与高性能计算(HPC)向更深层次、更复杂场景演进的今天,算力与延迟的矛盾日益凸显。Cerebras Systems自2016年成立以来,始终专注于构建面向未来的新型计算机系统,以“芯片、系统、软件、机器学习”全栈AI加速解决方案,打破传统计算架构的局限。

凭借400余名工程师的技术积淀,以及分布在硅谷、柏林、多伦多、班加罗尔的全球研发网络,该公司的产品已服务于北美、亚洲、欧洲的众多客户,涵盖大型企业、HPC中心、政府机构等,包括阿斯利康、葛兰素史克、梅奥诊所、美国能源部国家能源技术实验室、DARPA等知名机构,成为AI与HPC领域的关键推动者。

◆ 核心突破:WSE-3晶圆级引擎的硬件架构革新
Cerebras Wafer-Scale Engine 3(WSE-3)作为全球最快的AI芯片,其硬件设计重新定义了算力密度与数据传输效率的边界。基于台积电5nm工艺制程,这款芯片采用46225 m㎡的硅片面积,集成了4万亿晶体管,规模达到Nvidia H100的57倍。90万个专为稀疏线性代数优化的可编程核心,较H100的16896个FP32核心与528个张量核心实现52倍提升,为大规模并行计算提供了坚实基础。




存储与带宽方面,WSE-3搭载44GB片上SRAM内存,是H100 0.05GB片上内存的880倍,配合25PB/s的内存带宽(相当于H100的7000倍)和245Pb/s的架构带宽,彻底解决了传统GPU面临的“内存墙”瓶颈。


其架构采用逻辑二维阵列排布的处理单元(PE),每个PE支持16位和32位原生浮点与整数数据类型,通过数据驱动的编程模式实现任务激活,可编程路由器支持静态或动态路由,PE间通信仅需1个时钟周期,片上SRAM更是实现1周期读写响应,构建起高效的计算-存储-通信体系。

与传统内存层级架构不同,WSE-3采用空间数据流设计,减少了远程核心间的通信需求,通过大块数据传输提升IO效率,使数据处理更贴近计算单元,从架构层面降低了延迟。这种设计不仅适用于AI任务,更在HPC场景中展现出强大适应性,为数据密集型科学计算提供了高效支撑。



值得关注的是,Cerebras正布局光互连技术以进一步突破性能天花板,与Ranovus合作探索的晶圆级光互连与共封装晶圆方案,获得了DARPA的资金支持,目标是实现超乎寻常的互连带宽。这一技术方向将进一步优化晶圆间、集群间的通信效率,解决大规模扩展场景下的互连延迟与带宽限制,为未来更高性能的计算集群奠定基础。
Ranovus:共封装光学(CPO)技术演进与AI计算生态的革新之路

◆ 推理加速:突破延迟瓶颈,解锁AI新场景
生成式AI(GenAI)推理的核心痛点在于内存带宽限制——生成1000个token需要对模型参数进行1000次串行读取,低带宽直接导致响应延迟。

Cerebras WSE-3凭借超高内存带宽和独特的单芯片流水线执行模式,彻底改变了这一现状。其执行模型与GPU形成鲜明对比:GPU需要多个芯片协同运行单个模型层,而WSE-3仅需部分芯片即可完成单层计算,模型各层被映射到晶圆不同区域,权重和KV缓存存储在计算单元附近的本地内存中,最大化数据访问效率。


这种架构带来了极致的低延迟表现:在生成式文本与搜索场景中,GPU需要5秒完成的查询,WSE-3仅需0.07秒;对于要求延迟低于100毫秒的生成式语音与视频任务,WSE-3将延迟控制在10毫秒内,而GPU则需700毫秒。相较于Azure等云服务,WSE-3在Llama 70B模型上的推理速度快70倍,较最快GPU云平台快12倍,在Llama 3.3 70B、Mistral Large 2、Qwen332B等主流大模型上均展现出领先的token生成速率。



低延迟不仅提升用户体验,更解锁了全新AI应用场景:实时对话AI能够实现类人化自然响应,革新客户服务与虚拟助手体验;即时语言翻译打破跨语言沟通障碍,支持全球实时协作;个性化推荐系统可根据用户行为即时生成精准建议;辅助技术领域的语音转文字、文字转语音功能因低延迟变得更易用,惠及残障人群;实时情感分析让企业快速响应客户反馈,智能辅导系统能为学生提供即时学习指导。

更重要的是,WSE-3的高带宽支持单用户仅占用部分带宽,剩余资源可并行服务多个用户,所有用户均能获得满性能体验,实现低延迟与高吞吐量的兼顾。对于OpenAI o1这类需要100倍以上推理步骤的推理型模型,WSE-3的快速响应能力支持更长链的思维推理,为智能代理(Agentic AI)等未来场景奠定基础。正如谷歌的研究所示,哪怕毫秒级的延迟增加也会显著降低用户参与度,而WSE-3实现的即时响应,正是AI大规模普及的关键前提。



◆ 训练赋能:高效缩放,简化大模型训练流程

在大模型训练领域,Cerebras同样展现出量级优势。CS-3作为基于WSE-3的系统,在核心性能指标上全面超越GPU:芯片尺寸、核心数量、片上内存、内存带宽和架构带宽分别达到H100的57倍、52倍、880倍、7000倍和3715倍。凭借这种性能优势,单个CS-3芯片可在一天内完成LLaMA 70B模型10亿token的微调任务,远超传统GPU集群的效率。



Cerebras的训练系统采用“集群即ML加速器”的设计理念,通过MemoryX外部内存系统实现近乎无限的模型权重存储能力,权重被流式传输到晶圆上进行层计算,梯度则流式输出,无需在晶圆上存储权重,解耦了权重优化计算与存储的依赖。



MemoryX支持DDR5和Flash混合存储,兼顾性能与成本效率,配合多CPU架构,可支持所有常见机器学习操作,单个CS-3系统配备36TB DDR5内存(支持7200亿参数)和1.2PB Flash存储(支持24万亿参数),通过多晶圆扩展可支持更大规模模型。



SwarmX架构作为专为晶圆级系统设计的互联方案,支持跨CS-3系统的数据并行训练,权重广播与梯度归约高效完成,多系统扩展时保持与单系统一致的执行模型、网络流和软件接口,实现近乎线性的缩放效果。用户无需关注分布式计算细节,基于PyTorch定义的模型通过Cerebras API即可无缝运行,CSoft编译器基于MLIR框架,通过多面体代码生成或手写内核,自动完成从框架到硬件的优化映射。


这种简化的训练流程得到了实际验证:G42公司在Condor Galaxy-1集群上训练Jais30B模型时,无需修改分布式软件、并行模型或超参数,实现了“即开即用”的规模化训练。从10亿参数到70亿参数的模型训练,仅需修改配置文件中的参数设置,增减集群节点仅需一行代码调整,展现出极强的灵活性与易用性。




◆ 集群部署与HPC应用:从AI到科学计算的全场景覆盖
Cerebras构建了全球最具扩展性的AI超级计算机集群,从2022年的Andromeda集群(16个CS-2,1EFLOP/s AI16算力,320GB内存,233PB/s带宽)到2025年的Condor Galaxy集群(1300个CS-3,160EFLOP/s AI16算力,60TB内存,30EB/s带宽),在 Sunnyvale、Stockton、达拉斯、明尼阿波利斯等多地部署,将极致算力推向全球用户。其中Condor Galaxy 1配备64个CS-2,提供4EFLOP/s算力和82TB内存;Condor Galaxy 2则采用192个CS-3,实现24EFLOP/s算力和324TB内存,满足不同规模的计算需求。






在HPC领域,Cerebras系统已在多个关键场景取得突破性成果:在分子动力学模拟中,单个CS-2芯片的模拟速度达到980000时间步/秒,远超Frontier超级计算机(37888个GPU,21兆瓦功耗)的1470时间步/秒,仅需27千瓦功耗即可实现相当甚至更优的模拟效果,能效比领先数个量级;在地震处理领域,研究人员为CS-2定制的Tile Low-Rank矩阵向量乘法算法,实现92.58PB/s的持续内存带宽,与KAUST合作打破了多维地震处理的性能记录;在浅水方程模拟中,WSE-3实现从1个核心到5000万个核心的近乎完美扩展,并行效率高达99.9998%,在1000000节点规模下仍保持96%的效率,为100米分辨率的小行星撞击太平洋模拟等极端场景提供了可能。



此外,Cerebras系统还在计算流体力学、纳维-斯托克斯方程求解、海啸模型、HPCG基准测试、粒子输运、蒙特卡洛模拟等场景中表现突出,多次入围戈登贝尔奖(Gordon Bell Prize),其持续性能与峰值性能的比值远超传统超级计算机,有效缩小了“百亿亿次计算”的实际应用差距。传统超级计算机在PDE求解等场景中仅能发挥峰值性能的0.3%-3%,而Cerebras通过架构优化,为数据密集型科学计算提供了更高效的解决方案。

◆ 结语:晶圆级计算开启算力新纪元
Cerebras Systems通过晶圆级架构创新,将AI与HPC的算力与效率提升至全新高度。WSE-3芯片的硬件突破解决了传统计算架构的核心瓶颈,独特的推理与训练执行模式解锁了各类高要求应用场景,规模化集群部署与完善的软件生态则确保了技术的实用性与可扩展性。从AI实时交互到尖端科学计算,Cerebras的解决方案不仅展现出数量级的性能优势,更在能效比、易用性、安全性等方面形成综合竞争力。
在AI模型持续增大、HPC场景日益复杂的趋势下,晶圆级计算正成为突破算力边界的关键方向。Cerebras的实践证明,通过软硬件协同优化与架构革新,能够有效弥合峰值性能与实际应用性能的差距,为AI与HPC的深度发展提供坚实支撑。未来,随着Condor Galaxy等超大规模集群的持续部署、光互连等前沿技术的落地,晶圆级系统将在更多关键领域发挥核心作用,推动科技进步与产业升级。