Tom Coughlin：未来10年，计算架构的发展趋势

数据存储前沿技术

发布于 2025-05-08 08:01:10

1140

全文概览

全球计算领域正经历一场深刻的变革，传统以CPU为中心、依赖本地内存和集中处理的模式，已难以满足人工智能、大数据等现代应用对算力和效率的爆炸性需求。带宽瓶颈、数据传输延迟和能效问题日益凸显，驱动着硬件和软件架构向更异构、更分布式、更高效的方向演进。

本文基于Objective Analysis和Coughlin Associates高级分析师Jim Handy与Tom Coughlin在SNIA存储开发者大会上的分享，深入探讨了这一变革的核心驱动力、关键技术路径及面临的挑战。我们将看到计算单元如何从单一CPU走向CPU与GPU/TPU的融合，内存资源如何通过Fabric实现解耦与共享，以及处理能力如何向网络边缘迁移。同时，文章也剖析了CXL、计算型存储（PIM/CIM）、Chiplets等前沿技术在构建未来计算系统中的作用与前景，并坦诚地指出了这些新技术在软件生态和市场采纳方面可能面临的阻碍。通过阅读本文，您将对未来计算和存储架构的发展趋势有一个全面的认识。

阅读收获

理解未来计算架构如何从CPU中心化向异构、解耦和边缘化演进。
掌握CXL、计算型存储（PIM/CIM）和Chiplets等关键技术在构建下一代计算系统中的作用。
认识到新兴存储器和持久化缓存在提升系统性能和能效方面的潜力。
了解推广前沿计算和存储技术所面临的软件生态和人才培养挑战。

关于作者

Jim Handy (Objective Analysis)

Jim Handy 是 Objective Analysis 的核心分析师，专注于半导体和固态存储（SSD）市场。

核心贡献：

权威的 SSD 和存储市场分析： 凭借深厚的技术背景，提供对 SSD、闪存及新兴存储技术的市场趋势和经济学的精准分析与预测。
SSD 领域的意见领袖： 通过“The SSD Guy”等平台，是 SSD 技术发展和市场动态的重要信息源。
缓存存储专家： 著有业界参考书《The Cache Memory Book》。

Tom Coughlin (Coughlin Associates)

Tom Coughlin 是 Coughlin Associates 的总裁，拥有跨越多种存储技术的丰富行业经验。

核心贡献：

全面的数字存储行业顾问： 提供涵盖 HDD、SSD、磁带及存储系统的广泛市场和技术咨询。
发布有影响力的市场报告： 提供关于存储技术和市场（包括媒体娱乐存储）的深度报告。
组织关键行业会议： 主办 Storage Visions 等会议，促进行业交流和趋势探讨。
活跃的存储行业评论员： 在 Forbes 等平台对存储领域的重要发展进行分析和评论。

阐述当前硬件发展的主要趋势，特别是在计算和内存方面，以适应现代计算需求（例如 AI 和大数据处理）。

它强调了从传统的以 CPU 为中心、本地内存和集中处理的模式，正在转向包含更多异构计算单元（GPU/TPU）、通过内存 Fabric 连接内存资源以及将处理能力推向网络边缘的方向发展。这些变化的核心驱动力是为了提高处理效率、解决带宽瓶颈和降低数据传输需求。

===

从 CPU 到 CPU 和 GPU/TPU
- CPU 内存通道正在增加
- 但每通道的 DIMM 数量正在减少
- GPU 正在积极地从 GDDR 转向 HBM
从本地内存到内存 Fabric
- 通信带宽是关键瓶颈
从集中处理到边缘处理
- 通过减小数据大小来降低带宽需求
- 将任务委托给边缘或端点

探讨软件层面为适应现代硬件变化（如上一张幻灯片所示）和新的计算范式（尤其是 AI）所经历的深刻变革。它强调了从传统的虚拟化环境演进到支持可组合、持久化和解聚内存的架构，并指出内存 Fabric 在其中扮演的关键角色。同时，幻灯片也特别突出了人工智能（AI）对软件开发和人才需求带来的影响，包括 AI 生成代码的可能性以及管理复杂 AI 环境所需的多样化技能。

===

从虚拟化到可组合性到持久性到解聚内存再到 AI 再到 Fabric...
解聚内存应用和系统正在到来
- 也包括内存 Fabric
对持久性的支持
- SNIA NVM 编程模型是一个强大的基础
- 持久化缓存正在到来
...也包括 AI 生成的代码
...也仅仅是用于 AI 的不同语言的事实
- 以及需要不同的人才来管理它

CXL (Compute Express Link) 技术在支持和实现多种新型内存架构方面的重要性。

它列举了 CXL 能够实现的具体内存模型，包括将内存从 CPU 解耦的解聚内存、允许多个计算单元共享内存资源的池化和共享内存、构建高性能内存网络的内存 Fabric，以及对断电数据不丢失的持久性内存的支持。这表明 CXL 是构建未来灵活、高效和高性能内存系统的关键技术。

下文罗列了对CXL技术在不同程度的市场接受预测。

幻灯片的核心内容是对之前讨论的新内存架构（特别是与 CXL 相关的解聚、池化内存等） Adoption（采纳）前景的“非常悲观”预测。

幻灯片认为，这些新技术将面临极其缓慢的接受过程，主要障碍在于缺乏必要的软件支持（预计需要很长时间才能成熟）以及这些技术目前可能只对少数需要超大内存的系统有吸引力。此外，幻灯片还指出，大内存服务器本身的需求并不普遍（以 Optane 曾面临的挑战为例），而且内存池化等概念可能难以落地，导致相关硬件（如内存交换机）难以找到应用场景。总的来说，这张幻灯片表达了对新内存技术广泛应用的担忧和挑战。

===

接受度极低
- 没有强大的软件支持就不会被接受
- 需要两个奥运周期来创建这些软件
- 只在大内存系统上流行
很少需要大内存服务器
- 这是 Optane 面临的问题
池化未被采纳
- 交换机找不到用武之地

与悲观预测相比较，较为实际的发展趋势是：

2026年之前，CXL 市场缓慢增长;
2026年之后，市场对CXL的接受程度明显增强，并预计在2028年实现超30亿美金的总体营收。

缓存的发展趋势。

幻灯片探讨了使用持久性存储器构建持久化缓存（Persistent Cache）的可能性和挑战。

核心观点是，传统的 SRAM 作为缓存面临着无法随半导体工艺技术同步缩小的难题，导致其在 CPU 成本中的占比越来越高。相比之下，MRAM 和 ReRAM 等新兴的持久性存储器能够随工艺技术进行扩展，并且已经在批量生产中。然而，采用这些新兴存储器也存在明显的缺点，主要是它们的速度通常不如 SRAM，且成本远高于传统存储；更重要的是，软件生态系统（特别是现有的软件）尚未完全为支持持久性缓存做好准备，尽管 SNIA 的 NVM 编程模型提供了一定的基础，但普遍的软件支持仍然不足。因此，幻灯片提出了“持久化缓存？为什么不？”的问题，并在后续内容中列出了其潜在优势和当前面临的挑战。

Chiplets 的概念及其在构建未来计算系统中的重要性，特别是提到了“持久性小芯片”的可能性。

幻灯片指出，小芯片作为一种模块化的芯片设计方法，已经成熟并在 FPGA 等领域应用多年，其封装技术也已完善。采用小芯片的关键优势在于可以针对不同功能（如逻辑和内存）使用最优化的制造工艺，从而实现更高的成本效益和更快的上市时间。

CXL 的优势在于：构建内存Fabric 的互联、共享通道。

幻灯片的核心内容是通过一个简化的架构图，清晰地展示了 CXL (Compute Express Link) 技术作为一种互连标准，其核心能力在于能够连接不同类型的计算节点（如 DDR4 和 DDR5 服务器）与各种类型的内存设备，无论是传统的易失性内存（如 DDR4/DDR5 DRAM）还是新兴的持久性内存（如 MRAM, ReRAM, FRAM, Flash）。图中的“Switch”代表了 CXL 交换机，它使得不同服务器可以灵活地访问和共享连接到交换机上的各种内存资源，从而实现内存的解聚、池化和共享等新的内存架构。这进一步强调了 CXL 在构建未来灵活、异构和高效内存系统中的关键作用，以及其支持多种内存技术的普适性。

图表以形象化的方式描绘了“新兴存储器”领域包含的各种技术分支和类型，将其比作从一个中心分叉出来的多条“线路”，每条线路代表一类主要的新兴非易失性存储技术（如 MRAM, 相变存储, 铁电存储, ReRAM 等），并进一步列出了这些大类下的具体技术方向。

Cite

更多关于新兴存储器介质发展趋势的讨论，可阅读之前整理的文章：

文章：《Chiplet 让新兴内存介质应用成为可能》
主要内容：探讨了新兴存储器市场的发展现状，指出新兴存储器如MRAM、RRAM和PCM在性能上表现均衡，但尚未大规模商业化。文章还提到，传统存储器如DRAM和NAND在制造准备度上具有优势，而新兴存储器则面临市场接受度和成本的双重挑战

“内存内处理 (PIM)”这个概念并没有一个单一、严格的定义，其具体实现形式和理解会因交谈对象或技术路线的不同而有所差异。

幻灯片列举了业界对 PIM 的几种不同理解或实现方式，包括在 DIMM 上集成独立的处理器芯片、在 HBM（高带宽内存）的逻辑层集成处理器、在 DRAM 芯片内部集成处理单元，甚至是在更底层的内存位单元中实现处理逻辑，以及将模拟神经网络芯片也视为一种 PIM 的形式。尽管形式多样，幻灯片最后强调了这些不同 PIM 实现方式的共同核心目标：都是为了减少数据移动，从而克服传统计算架构中数据传输带来的瓶颈。

存内计算的核心宗旨：更宽的总线，更大的处理带宽。

幻灯片的核心内容是阐述提高内存访问效率和处理带宽的关键目标：实现“更宽的总线”以支持“更大的处理带宽”。

通过展示一个内存芯片的位阵列，以及大量的“位输出”箭头和“一次全部！”的强调，幻灯片直观地说明了通过增加一次性并行读取（或写入）的数据位数（即加宽总线），可以直接大幅提升内存芯片的数据吞吐能力。这对于满足现代高性能计算和数据密集型应用对内存带宽日益增长的需求至关重要。

幻灯片的核心内容是介绍一种新兴的计算范式：将处理能力集成到 DRAM 芯片内部（Processing-in-Memory, PIM 或 Computation-in-Memory, CIM）。

通过展示三星 Aquabolt AX、Upmem DPU 和 Natural Intelligence Automaton 这三个具体的示例，幻灯片说明了将可编程计算单元或数据处理单元（DPU）紧密集成在 DRAM 存储体旁边，可以大幅减少数据在处理器和内存之间的移动，从而提高处理效率和能效，特别适用于数据密集型和并行计算任务。这代表了未来计算架构发展的一个重要方向。

数据展示了在内存位单元内部进行处理（即 PIM/CIM）相比传统 CPU 处理所带来的显著性能和能效优势。

左侧图表显示，在执行特定任务（“相同的召回”）时，采用内存内处理的方案（如 GSI Gemini）比传统 CPU（Intel Xeon Gold）快了 10 倍。
右侧图表则表明，与传统的 CPU 处理相比，采用 APU（很可能代表集成了处理能力的内存或加速器）的系统功率显著降低，实现了 2 倍的系统功率节省。

强调了将计算能力更靠近数据（甚至集成到内存单元内部）是克服数据移动瓶颈、大幅提升性能并降低功耗的有效途径。

如何理解PIM和DPU的场景差异？

PIM 和 DPU 都属于数据密集型场景的专用计算，两者从概念和功能上相近之处，如何区别、辨析？

PIM (Processing-in-Memory) 和 DPU (Data Processing Unit) 确实都是为了应对数据密集型场景下的计算挑战而出现的专用计算概念，并且都旨在减少数据移动带来的性能瓶颈。但从业界主流观点来看，它们在概念、功能侧重和部署位置上存在关键区别。

特征	PIM (Processing-in-Memory) / CIM (Computation-in-Memory)	DPU (Data Processing Unit)
概念核心	将计算逻辑集成到内存内部或紧邻内存单元，减少数据移动。	专门处理基础设施数据路径任务（网络、存储、安全），卸载主 CPU。
功能侧重	在内存中直接执行计算，加速对内存带宽要求高的并行任务。	加速数据在网络和存储路径中的流动和处理，实现基础设施卸载。
部署位置	紧密集成在 DRAM 或其他内存芯片/内存条内部。	通常位于独立的网卡、存储控制器或加速卡上，在数据路径上。
编程挑战/模式	通常需要新的编程模型或大量应用修改。	通常通过标准接口与 OS/虚拟化层交互，编程模式相对更接近加速器。
主要目标	打破“内存墙”，减少数据在内存与主处理器间的传输。	卸载基础设施开销，释放主 CPU 资源用于运行应用程序。

内存内处理（PIM/CIM）技术当前面临的主要挑战。这些挑战集中在软件生态系统的不成熟和人才的不足。

具体来说，缺乏开发和利用 PIM 硬件的工具以及专门针对 PIM 设计的应用程序是推广该技术的重大障碍。同时，能够理解和利用 PIM 架构的专业人才也相对稀缺。幻灯片总结性地指出，克服这些挑战是一个“追赶的游戏”，意味着需要投入大量时间和资源来发展 PIM 的软件支持和人才基础，才能充分发挥其潜力。

对之前一系列关于硬件、软件和新兴技术讨论的总结。

概括了当前计算领域正在发生的关键转变：

硬件层面正从单一的 CPU 转向包含 GPU、利用 Fabric 连接资源以及将处理推向边缘；
软件层面则在适应这些硬件变化，支持解聚内存、Fabric 以及 AI 相关的应用;

幻灯片特别提到了 CXL 作为实现这些新架构的关键技术正在发展中，但也对其推广速度提出了疑问。同时，它强调了持久性存储的重要性（尤其是在缓存层面）、多样化处理器类型对人才技能的需求、PIM 在边缘端通过减少通信来提升效率的作用，以及 AI 如何以少量部署的方式帮助优化带宽和延迟。总的来说，幻灯片描绘了一个由硬件、软件和新兴技术共同驱动的、正在经历深刻变革的计算和存储未来，并指出了其中的一些关键技术和挑战。

延伸思考

这次分享的内容就到这里了，或许以下几个问题，能够启发你更多的思考，欢迎留言，说说你的想法~