
走向未来
本报告全面解析了 Google TPU 旨在重塑全球 AI 算力格局的深度战略转型。面对 AI 基础设施的范式转移,Google 正从单一云服务商向“商用硅片”供应商演变,确立了激进的“双轨并行”技术路线:一方面通过 v5e 和 Trillium (v6e) 的极致性价比抢占大规模推理市场;另一方面利用搭载 192GB HBM3e 内存与双芯粒架构的 v7 (Ironwood) 突破万亿参数模型的训练瓶颈。
在供应链层面,Google 战略性引入联发科(MediaTek)作为关键第二供应商,旨在利用其在消费电子领域的成本控制优势及台积电产能配额,解决 TPU 迈向数百万颗量级时的制造与成本痛点。
商业化方面,随着 Anthropic 的百万颗级订单及 Meta 等潜在外部巨头的入局,TPU 正在打破仅供内部使用的藩篱。预测模型显示,在推理需求放量与外部销售的双重驱动下,2027 年 TPU 出货量有望突破 500 万颗。这一系列举措标志着 Google 正构建起一套足以在成本和性能上抗衡 Nvidia 垄断的软硬协同“AI 超级计算机”体系。
本文的PDF版本及100多页的多份参考文档和报告的全文都已经收录到“走向未来”知识星球中,推荐加入这个极具价值知识星球“走向未来”,获取生成式人工智能、大模型、AIGC、AI芯片和机器人等的产品、技术和应用实践的资料。

在生成式人工智能重塑全球科技版图的当下,算力基础设施正经历一场从通用计算向专用计算的范式转移。长期以来,Nvidia 凭借其 GPU 和 CUDA 生态构筑了看似不可逾越的护城河,并在 AI 训练和推理市场攫取了巨额利润。然而,作为 AI 专用集成电路(ASIC)领域的先行者,Google 正在通过其 TPU(张量处理单元)项目发起一场静悄悄却足以颠覆格局的革命。Google 的战略核心已不再局限于为自身业务提供算力支持,而是致力于构建一个软硬件深度协同的“AI 超级计算机”体系,并逐步向“商用硅片”供应商的角色演变。
这一转型的技术基石在于 Google 对计算负载的深刻理解:在万亿参数模型时代,单一芯片的峰值算力已不再是决定胜负的唯一指标,内存容量、互联带宽以及系统级的可靠性成为了新的瓶颈。基于此,Google 确立了“打破内存墙”和“推理经济学”两大技术演进方向,并从 TPU v5 世代开始,彻底摒弃了单一通用旗舰的策略,转而执行激进的“双轨并行”路线。这一路线将产品线明确划分为追求极致性价比的推理系列(如 v5e、v6e)和追求极致性能的训练系列(如 v5p、v7),以应对日益分化的市场需求。
与此同时,供应链层面的重构也在同步进行。为了摆脱对单一供应商 Broadcom 的依赖并解决产能瓶颈,Google 引入了联发科作为关键的第二供应商。这一决策不仅是供应链安全的考量,更是为了通过联发科在消费电子领域积累的极致成本控制能力,将 TPU 铺设到数以百万计的推理服务器中。从封闭走向开放,从单一走向多元,Google TPU 的发展史正是全球 AI 算力格局演变的一个缩影。
TPU v5 是 Google 芯片战略的转折点。在此之前,TPU 往往以单一型号应对所有负载。但随着内部搜索、广告业务对低延迟推理的需求激增,以及 DeepMind 对超大模型训练算力的渴望,单一架构已无法兼顾效率与性能。
TPU v5e:极致的推理效能
代号“ViperLite”的 TPU v5e 是 Google 对“推理经济学”的首次大规模实践。其设计哲学并非追求基准测试的最高分,而是追求单位成本下的最高吞吐量。v5e 单芯片仅包含一个 TensorCore,算力为 197 TFLOPs (bf16),配备 16GB HBM2 内存。虽然绝对性能指标看似平庸,但其采用了 2D Torus 互联拓扑,大幅降低了布线复杂度和网络收发器成本。这种设计使得 v5e 极其适合构建 256 芯片以下的中小型集群,广泛应用于 Stable Diffusion 图像生成和 BERT 等模型的服务化场景。相比前代 v4,v5e 在推理任务上实现了 2.5 倍的性价比提升,成功降低了云端 AI 的门槛。
TPU v5p:训练巨兽的诞生
与 v5e 截然不同,代号“Viper”的 TPU v5p 是为了解决万亿参数模型训练瓶颈而生。它配备了 95GB HBM2e 高带宽内存,带宽高达 2765 GB/s,是 v5e 的 6 倍。大内存对于存储庞大的梯度和优化器状态至关重要,能显著减少重计算开销。v5p 恢复并增强了 3D Torus 拓扑,单芯片互联带宽飙升至 4800 Gbps,支持构建拥有 8960 颗芯片的超大规模集群。这种紧耦合集群能够提供超过 4 ExaFLOPS 的算力,足以在数周内完成 GPT-4 级别模型的训练。
2024 年推出的第六代 TPU,代号 Trillium,作为 v5e 的继任者,旨在承接指数级增长的推理和轻量级训练负载。Trillium 在架构上的最大突破在于算力密度的提升和稀疏计算的优化。其单芯片峰值算力达到 918 TFLOPs,是 v5e 的 4.7 倍,这得益于矩阵乘法单元规模的扩大和时钟频率的提升。针对内存瓶颈,Trillium 将 HBM 容量翻倍至 32GB,带宽提升至 1600 GB/s。
更值得关注的是 Trillium 集成了第三代 SparseCore。这是一种专门处理非结构化数据的数据流处理器,能有效卸载 TensorCore 难以处理的随机访存操作,使得推荐系统等任务的性能提升了 2 倍。在 MLPerf 4.1 测试中,Trillium 展现了惊人的线性扩展能力,从 512 卡扩展到 3072 卡时,弱扩展效率高达 99%,证明了其网络通信开销几乎被完全掩盖。采用 TSMC 4nm/3nm 工艺制造的 Trillium,在性能暴涨的同时,能效比提升了 67%,直接转化为数据中心的电力成本节省。
预计于 2025 年第四季度上市的 TPU v7,代号 Ironwood,代表了 Google 芯片架构的颠覆性重构。虽然其具备恐怖的训练能力,但 Google 将其定义为“为推理时代而生”的终极形态。
Ironwood 首次采用了双芯粒(Dual-Chiplet)封装设计。通过高速 Die-to-Die 接口将两个独立的计算芯粒互联,Google 突破了光罩尺寸的物理限制,在提高良率的同时实现了超越单一大芯片的性能。这一设计使得 Ironwood 的单芯片 FP8 稠密算力高达 4614 TFLOPs。
然而,Ironwood 真正的杀手锏在于其内存子系统。单芯片搭载了 192GB HBM3e 内存,带宽高达 7.4 TB/s。相比 v6e 的 32GB 提升了 6 倍,相比 v5p 也翻了一倍。这种海量的内存空间使得超大模型可以完全加载到显存中,极大减少了推理过程中的 KV Cache 换入换出,大幅降低了首个 Token 生成的延迟。单个 Ironwood Pod 可容纳 9216 颗芯片,形成一个拥有 1.77PB 统一 HBM 地址空间的超级计算机。配合光路交换技术,这个庞然大物可以根据任务需求被瞬间切割成任意形状的切片,灵活服务于训练或推理任务。
Google 已在研发下一代 TPU v8,预计将于 2027 年前后投入使用。v8 将锁定 TSMC 2nm 工艺,引入全环绕栅极(GAA)晶体管技术,以在更低电压下实现更高性能。架构上,v8 可能进一步细分为极致性能的训练版 v8AX 和成本优化的推理版 v8X。业界猜测 v8 可能会参考 Nvidia Grace Hopper 的设计,通过 Chiplet 技术与 Google 自研的 Axion ARM CPU 进行封装级集成,实现 CPU 与 TPU 之间的内存一致性互联,彻底消除主机到加速器的数据搬运瓶颈。
早期 TPU 采用与 Broadcom 深度绑定的单一供应模式。Broadcom 凭借其在高性能 SerDes 和后端设计上的垄断优势,长期作为 Google 的独家合作伙伴。然而,面对生成式 AI 带来的爆发式需求,这种模式暴露出了产能扩张缓慢和成本居高不下的弊端。Broadcom 昂贵的设计服务费和相对僵化的合作模式,难以满足 Google 想要将 TPU 铺设到数百万台服务器中的愿景。
为了打破这一僵局,Google 决定实施供应链多元化战略,引入联发科作为 TPU v7 及后续产品的关键第二供应商。这一决策基于 Chiplet 架构带来的技术解耦:核心计算晶粒继续由 Broadcom 主导,利用其在超高性能网络互联上的专利壁垒;而负责芯片间互联及 I/O 通信的晶粒则交由联发科设计与制造。
联发科的入局并非简单的产能补充,而是基于其独特的价值主张。首先是成本效益。作为消费电子芯片巨头,联发科拥有极强的成本控制 DNA。分析显示,联发科参与的方案有望将相关模块的成本降低 20%-30%。对于计划部署数百万颗 TPU 的 Google 而言,这意味着数十亿美元级别的成本节约,是 TPU v7e 能够覆盖中低端推理市场的经济基础。
其次是台积电产能的“双保险”。联发科是台积电的顶级客户,在产能排期和议价权上仅次于苹果。在 CoWoS 先进封装产能极度紧缺的背景下,联发科能为 Google 争取到额外的产能配额,与 Broadcom 形成互补。此外,联发科近年来积极组建 ASIC 团队,能够提供从前端设计到后端封装测试的一站式服务,符合 Google 快速上量、简化供应链管理的需求。
大规模的出货量必须建立在可行的制造能力之上。TPU v7 预计采用 TSMC 3nm 工艺,而 v8 将过渡到 2nm。为了降低风险,Google 也在探索非台积电的供应链。三星正在成为 Google TPU HBM(高带宽内存)的主要供应商,预计供应占比超过 60%。同时,有传言称 Google 和联发科正在评估三星晶圆代工的 2nm 工艺作为潜在备份。这种多方博弈策略增加了 Google 对台积电的议价筹码,确保了供应链的韧性。
Google TPU 的角色正在发生根本性转变,从仅供内部使用的“秘密武器”,变成了一个能够产生巨额收入的商业产品。Google 正在从单一的云服务商向“芯片供应商”转型,开启了“商用硅片”模式。这一模式允许 Google 直接向具备超大数据中心运营能力的客户销售 TPU 服务器机架,或通过“混合销售”模式锁定客户。
Anthropic 与 Google 的合作是 TPU 商业化的里程碑。Anthropic 承诺使用超过 100 万颗 TPU 来构建其未来的 AI 基础设施,总算力规模超过 1GW。这笔交易包含一种创新的结构:Anthropic 将直接向 Broadcom 购买价值约 100 亿美元的 TPU v7 硬件,同时承诺在 Google Cloud 上租赁剩余算力。这种模式允许 Google 将部分硬件资本支出转嫁给客户,同时锁定长期的云服务收入。
更具风向标意义的是 Meta 的潜在倒戈。Meta 长期以来是 Nvidia 的顶级客户,但出于对推理成本和供应链安全的考量,Meta 正在就在 2027 年直接部署 Google TPU 进行谈判。TPU v7e 专为推理优化,TCO 优势明显,正是 Meta 处理庞大推荐系统和 Llama 模型服务所急需的。如果这一合作达成,将是 Google 挑战 Nvidia 垄断地位的关键一役。
Google 推行 TPU 商业化的核心动力在于打破“Nvidia 税”。Nvidia 的 GPU 毛利率高达 75% 以上,导致硬件采购成本占据了 AI 基础设施支出的绝大部分。Google 通过自研芯片,仅需支付代工费和设计服务费,拥有巨大的定价空间。据测算,对于相同的 AI 负载,使用 TPU v7 服务器的总体拥有成本(TCO)比使用 Nvidia GB200 服务器低约 44%。即便考虑到 Google 的利润,客户仍能获得显著的成本节约。
基于供应链情报和主要投行的研报,TPU 的产量将迎来指数级增长。2021 至 2024 年间,TPU 的累计产量约为 790 万颗,主要服务于内部存量业务。未来的增长将完全由外部商业化和生成式 AI 的推理需求驱动。
预计 2025 年,随着 v6e 的放量和 v7 的试产,TPU 出货量将突破 200 万颗,同比增长 50%。2026 年,随着 v7 Ironwood 的大规模量产,出货量将达到 320 万至 380 万颗。真正的爆发点在 2027 年,预计年产量将突破 500 万颗。这一数字的达成主要依赖于 Meta 等外部大客户的大规模部署以及 v7e 推理芯片的广泛铺设。到 2028 年,随着 v8 的商用,年出货量有望达到 700 万颗。这意味着在 2027-2028 两年间,Google 将获得 1200 万颗 TPU,相当于过去四年总和的 1.5 倍。
出货量的激增将为 Google 和联发科带来巨大的经济效益。对于 Google 而言,每向外部销售 50 万颗 TPU,预计将带来约 130 亿美元的额外收入,并显著提升资本市场对其估值。对于联发科,随着 v7e 的放量,来自 TPU 业务的营收有望在 2027 年达到 40 亿美元,ASIC 业务将贡献其 20% 以上的运营利润,助其摆脱对智能手机市场的单一依赖。
从 v5 到 v8,Google TPU 的演进路线图清晰地展示了其重塑 AI 算力格局的雄心。通过技术上的双轨并行、供应链上的引入联发科以及商业模式上的开放外销,Google 正在构建一个足以抗衡 Nvidia 的算力生态。尽管 Nvidia 在通用性和 CUDA 生态上依然保持领先,但在大规模矩阵运算和成本敏感的推理场景下,Google TPU 已经提供了一个极具吸引力的替代方案。随着 v7 Ironwood 的问世和联发科产能的释放,2027 年将成为全球 AI 芯片市场走向双雄对峙的关键分水岭。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。