首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >内存焦虑?长文梳理: HBM/DRAM/CXL/HBF/GPU-Direct

内存焦虑?长文梳理: HBM/DRAM/CXL/HBF/GPU-Direct

作者头像
数据存储前沿技术
发布2025-10-09 10:42:56
发布2025-10-09 10:42:56
5280
举报

全文概览

在人工智能,特别是大语言模型(LLM)和基础模型飞速发展的今天,模型的规模和复杂性呈指数级增长,对内存容量和带宽的需求急剧膨胀,传统CPU-DRAM与块存储的两级架构已难以满足现代AI工作负载的严苛要求。这不仅导致了严重的性能瓶颈,更催生了“搁浅GPUs”(Stranded GPUs)现象——大量内存资源因无法被高效利用而闲置。

面对这一困境,我们该如何突破算力瓶颈,构建更高效的AI基础设施?如何在性能、容量、成本和功耗之间找到精妙的平衡点?业界正积极探索并演进出一种多层次的内存与存储体系(Tiered Memory and Storage Hierarchy)。这种架构范式通过在靠近处理器(CPU/GPU)的不同距离上部署不同特性的内存与存储技术,旨在为AI工作负载提供更灵活、更高效的数据访问路径。本文将深入剖析构成这一新兴层次结构中的五项关键技术:高带宽内存(HBM)、本地CPU-DRAM、基于CXL的DRAM资源池、高带宽闪存(HBF)以及GPU-Direct闪存。我们将从时延、带宽、容量、市场成熟度及落地可行性等多个维度进行深度分析,希望能为您的AI基础设施决策提供清晰、可执行的技术洞察。

阅读收获

  • 掌握AI内存/存储分层全景: 深入理解HBM、本地DRAM、CXL-DRAM、HBF和GPU-Direct闪存五大核心技术在AI场景下的性能特性、容量优势及典型应用,为您的AI系统设计提供全面的技术选型依据。
  • 洞察技术成熟度与落地路径: 清晰了解各项技术的市场成熟度、标准化进程及部署复杂性,帮助您制定短期、中期及长期的AI基础设施投资与升级策略,规避潜在风险。
  • 优化AI工作负载性能: 学习如何通过多层次内存与存储协同工作,有效解决“搁浅GPUs”问题,最大化GPU算力利用率,显著提升AI模型训练和推理的效率。
  • 前瞻未来架构趋势: 理解CXL技术作为“可组合式基础设施”基石的关键作用,以及高带宽闪存(HBF)等新兴技术对未来AI数据中心形态的潜在影响,为您的长期技术规划提供前瞻性视角。

01

AI内存挑战与演进

人工智能(AI),特别是大语言模型(LLM)和基础模型的指数级发展,对计算基础设施提出了前所未有的要求。这些模型的规模和复杂性持续增长,导致对内存容量和带宽的需求急剧膨胀,传统服务器架构正面临严峻挑战 1。经典的CPU-DRAM与块存储两级架构已难以满足现代AI工作负载的需求,由此引发了严重的性能瓶颈和资源利用率低下的问题,即所谓的“搁浅GPUs”(Stranded GPUs)现象 3。

为应对这一挑战,业界正朝着构建一个多层次的内存与存储体系(Tiered Memory and Storage Hierarchy)演进。该架构范式通过部署不同特性的内存与存储技术,在靠近处理器(CPU/GPU)的不同距离上形成多个层级,从而在性能、容量、成本和功耗之间取得精妙平衡。

本文旨在深度剖析构成这一新兴层次结构中的五项关键技术:高带宽内存(HBM)、本地CPU-DRAM、基于CXL的DRAM资源池、高带宽闪存(HBF)以及GPU-Direct闪存。分析将围绕两个核心维度展开:时延与性能评估,以及市场成熟度与落地可行性分析,为企业IT决策者提供清晰、可执行的技术洞察。

以下图表概念性地展示了这五种技术在现代AI服务器中的分层定位:

AI计算下的多级内存/存储访问策略
AI计算下的多级内存/存储访问策略

AI计算下的多级内存/存储访问策略

02

核心技术能力评估

本章节将对五种关键技术进行结构化的比较分析,提供清晰的评估依据。

01

性能维度:时延与带宽的权衡

性能是评估AI基础设施内存方案的首要指标。不同技术在时延和带宽之间做出了不同的权衡,以适应AI工作流中不同阶段的需求。

  • HBM (高带宽内存)

HBM是一种3D堆叠DRAM技术,通过硅通孔(TSV)和硅基板(Interposer)直接与处理器芯片封装在一起。这种设计提供了极宽的内存接口(例如1024-bit或更宽),从而实现了无与伦比的内存带宽 6。HBM3E的带宽已超过4.9 TB/s,是当前性能最高的内存解决方案 8。尽管其单次请求的绝对时延(约100-220 ns)在某些测试中可能高于高频GDDR6(约20 ns),但这对于AI工作负载具有一定的误导性 6。AI计算涉及大规模的并行数据传输,HBM面向吞吐量的设计在这种场景下能提供最低的有效时延。因此,HBM是承载AI模型权重、中间激活值等最关键数据的理想选择 1。

HBM 堆叠架构,详见文中参考阅读1
HBM 堆叠架构,详见文中参考阅读1

HBM 堆叠架构,详见文中参考阅读1

  • 本地CPU-DRAM (Local CPU-DRAM)

本地DRAM,如DDR5/6,是通过并行的内存通道连接到CPU的传统系统内存。它为通用计算任务进行了时延优化,是服务器系统的核心组件 10。DDR5的典型负载到使用(load-to-use)时延约为80-120 ns,其带宽虽然可观(8通道DDR5可达500-800 GB/s),但与HBM相比仍有数量级的差距 11。在AI系统中,本地DRAM主要用于承载操作系统、应用程序和数据预处理流水线。在NVIDIA Grace Hopper等先进架构中,CPU侧的LPDDR5X内存还可作为GPU的高速扩展内存池,通过NVLink-C2C互联技术供GPU直接访问 8。

本地DRAM样式,详见文中参考阅读2
本地DRAM样式,详见文中参考阅读2

本地DRAM样式,详见文中参考阅读2

  • CXL-DRAM 资源池 (CXL-DRAM Resource Pool)

CXL(Compute Express Link)是一种开放的互联标准,它利用PCIe物理层,通过CXL.mem协议实现CPU与外部设备之间的高速、低时延、缓存一致性的内存访问 14。CXL-DRAM设备(如内存扩展卡或内存池设备)使得服务器能够突破物理DIMM插槽的限制,实现TB级别的内存容量扩展。由于协议开销和数据串行化,CXL内存的访问时延高于本地DRAM。

实测数据显示,其时延约为本地DDR5的2.02倍,每次CXL跳跃(hop)会增加约30-80 ns的额外开销 12。然而,这种时延的代价换来的是前所未有的内存容量可扩展性和资源池化的能力。对于无法完全载入单机内存的超大模型或需要巨大KV缓存的推理场景,CXL提供的“第二层”内存(Tier 2)至关重要,它能有效避免系统因内存不足而频繁访问更慢的磁盘存储,从而提升整体应用性能 12。

CXL-DRAM扩展,详见文中参考阅读2
CXL-DRAM扩展,详见文中参考阅读2

CXL-DRAM扩展,详见文中参考阅读2

  • HBF (高带宽闪存 - High-Bandwidth Flash)

HBF是一项新兴的存储技术,其架构理念与HBM类似,通过在硅基板上堆叠NAND闪存芯片,旨在提供接近HBM的带宽和远超DRAM的容量 19。HBF的访问时延预计将远高于任何基于DRAM的技术(预计在微秒级别),但会比传统PCIe SSD低几个数量级 19。该技术主要针对读取密集型的AI推理工作负载,利用NAND闪存的高密度和低成本优势,同时规避其写入寿命和高写时延的短板 20。其目标是提供HBM 8到16倍的容量,使得整个大型基础模型能够被存储在一个快速访问层中,从而显著加速推理速度并降低对慢速存储的依赖 20。

HBF堆叠架构,详见文末参考资料19
HBF堆叠架构,详见文末参考资料19

HBF堆叠架构,详见文末参考资料19

  • GPU-Direct 闪存 (GPU-Direct Flash)

这并非一种内存介质,而是一种数据路径加速技术,其代表是NVIDIA的GPUDirect Storage (GDS)。GDS技术允许在NVMe存储设备和GPU显存之间建立一个直接的DMA(直接内存访问)通道,数据传输无需经过CPU主内存作为中转站(即“bounce buffer”) 22。这种架构极大地降低了I/O路径上的时延和CPU开销。基准测试显示,与传统I/O路径相比,GDS可将存储访问时延降低多达3.5至7.3倍,并将有效带宽提升2至8倍 24。对于AI工作流中的数据加载、预处理和模型检查点等环节,GDS是确保GPU计算单元不会因等待数据而空闲的关键技术,尤其适用于处理PB级别的大规模数据集 22。

GPU-Direct 访问路径,详见文中参考阅读3
GPU-Direct 访问路径,详见文中参考阅读3

GPU-Direct 访问路径,详见文中参考阅读3

性能的层级划分并非单一的线性序列,而是基于特定任务需求的多维度考量。HBM为核心计算提供极致吞吐,本地DRAM负责通用低时延任务,CXL-DRAM为容量扩展开辟新路径,而GPU-Direct Flash则专注于打通从持久化存储到GPU的高速公路。HBF则试图在DRAM和闪存之间开辟一个新的高性价比、大容量的读取密集型层级。

下表对这五种技术的性能特征进行了量化比较。

表1:AI内存与存储技术性能特征对比

技术 (Technology)

典型访问时延 (Typical Access Latency)

峰值带宽 (Peak Bandwidth)

典型容量/单元 (Typical Capacity/Unit)

主要AI应用场景 (Primary AI Use Case)

数据来源 (Data Sources)

HBM

100 - 220 ns (大块数据传输的有效时延最低)

>4 TB/s (HBM3E)

96 - 144 GB per stack

模型权重、激活值、KV缓存 (Model Weights, Activations, KV Cache)

6

本地CPU-DRAM

~80 - 120 ns (本地DDR5的负载到使用时延)

500 - 800 GB/s (8-channel DDR5)

16 - 128 GB per DIMM

操作系统、数据预处理、CPU侧应用、GPU扩展内存 (OS, Data Preprocessing, CPU-side Apps, GPU Extended Memory)

10

CXL-DRAM 资源池

~160 - 250 ns (本地DRAM时延 + 30-80ns开销)

64 GB/s per x16 CXL 3.0 link

128 GB - 2 TB per device

超大模型内存扩展、内存池化、温数据层 (Massive Model Memory Expansion, Memory Pooling, Warm Data Tier)

16

HBF (高带宽闪存)

> 1 µs (预计)

~1.2 TB/s (预计, 与HBM相当)

256 GB - 4 TB per device (预计)

(未来) 读取密集型推理、静态模型存储 ((Future) Read-intensive Inference, Static Model Storage)

19

GPU-Direct 闪存

数十 µs (微秒)

传统I/O的2-8倍 (聚合可达100+ GB/s)

Terabytes (NVMe SSD容量)

训练数据加载、数据集暂存、检查点 (Training Data Loading, Dataset Staging, Checkpointing)

24

参考阅读

02

市场维度:成熟度与落地可行性

技术的先进性必须与市场成熟度相结合,才能转化为实际的生产力。本节将评估各项技术的生态系统、标准化进程和部署难度。

  • HBM (高带宽内存)

HBM技术成熟度高,已成为所有高端数据中心GPU(如NVIDIA H100/H200、AMD Instinct系列)的标准配置,并已迭代多个版本 7。其供应链虽然成本高昂,但已相当稳固。对于最终用户而言,HBM是透明集成的,其复杂的封装工艺由芯片制造商完成。

  • 本地CPU-DRAM (Local CPU-DRAM)

作为列表中最成熟的技术,本地DRAM是一个完全商品化的组件,拥有庞大且充分竞争的供应商生态系统(三星、SK海力士、美光等),并得到所有服务器平台的普遍支持。其部署遵循JEDEC标准,对系统集成商而言毫无难度。

  • CXL-DRAM 资源池 (CXL-DRAM Resource Pool)

CXL技术的成熟度处于中等并正在快速提升。CXL联盟汇集了所有主要的行业参与者,标准版本已快速迭代至3.2 15。基于CXL 1.1/2.0标准的第一代产品,包括内存扩展模块和控制器芯片,已经由三星、美光、Astera Labs、Montage等厂商推向市场 14。硬件支持已出现在最新一代服务器平台中 12。当前落地的主要挑战在于软件生态。Linux内核对CXL的支持虽已具备基本功能,但在高级特性如Fabric管理、多主机共享等方面仍存在已知差距 6。虚拟化平台(如VMware vSphere)的支持也处于初级阶段,主要通过更广泛的“内存分层”功能来实现,而非完整的动态资源池化 35。

  • HBF (高带宽闪存)

HBF的成熟度极低,目前仍处于概念和早期研发阶段。市场上尚无任何商用产品。该技术由Sandisk和SK海力士联合推动,正在进行标准化工作 19。其实现复杂度极高,需要全新的NAND芯片、控制器IP,并涉及类似HBM的先进封装技术。根据计划,首批样品预计于2026年下半年问世,搭载HBF的设备则要等到2027年初 19。

  • GPU-Direct 闪存 (GPU-Direct Flash)

GDS是一项成熟的系统级技术,已在生产环境中广泛部署多年。然而,其部署并非即插即用,具有中等复杂性。它要求一个特定的软硬件栈:NVIDIA GPU、相应的驱动程序、cuFile库以及受支持的文件系统(通常是高性能并行文件系统,如Lustre、WEKA或IBM Storage Scale) 24。值得注意的是,主流云服务商(如AWS、OCI)已开始提供支持GDS的托管存储服务,这大大简化了用户的部署和管理工作 26。

技术的成熟度并非单一维度的概念,而是从组件到生态系统的连续谱。HBM和DRAM是成熟的“组件”;GDS是成熟的“系统解决方案”,其挑战在于集成;CXL是一个新兴的“生态系统”,其瓶颈在于软件;而HBF则是一项未来的“组件技术”,其可行性尚待验证。这种区分有助于决策者对不同技术采取差异化的采纳策略:立即使用、试点部署或长期观察。

下表总结了五种技术的市场成熟度与落地可行性。

表2:AI内存与存储技术市场成熟度与落地可行性对比

技术 (Technology)

技术就绪水平 (TRL)

标准化状态 (Standardization Status)

主要供应商/推动者 (Key Vendors/Promoters)

软件生态成熟度 (Software Ecosystem Maturity)

主要落地障碍 (Key Implementation Hurdles)

HBM

TRL 9 (生产级)

JEDEC 标准

SK hynix, Samsung, Micron

高 (驱动/固件集成) High (Driver/Firmware Integrated)

高成本、与处理器绑定 (High Cost, Tied to Processor)

本地CPU-DRAM

TRL 9 (生产级)

JEDEC 标准

Samsung, SK hynix, Micron, etc.

非常高 (所有OS/Hypervisor) Very High (All OS/Hypervisors)

物理插槽限制 (Physical Slot Limits)

CXL-DRAM 资源池

TRL 7-8 (试点/早期生产)

CXL Consortium (v3.2 已发布)

Intel, AMD, Samsung, Astera Labs, Montage

中 (Linux/Windows支持,高级功能开发中) Medium (Linux/Windows support, advanced features in dev)

软件功能完善、跨厂商互操作性 (Software feature completeness, cross-vendor interoperability)

HBF (高带宽闪存)

TRL 3-4 (研发/概念)

标准化进行中 (Standardization in progress)

Sandisk, SK hynix

无 (Not Applicable)

技术待验证、生态系统待建立 (Technology validation, ecosystem creation)

GPU-Direct 闪存

TRL 9 (生产级)

NVIDIA 私有 (事实标准)

NVIDIA, Parallel File Systems (WEKA, IBM, etc.), AWS, OCI

高 (需特定CUDA/cuFile/文件系统栈) High (Requires specific CUDA/cuFile/FS stack)

软件栈依赖、需要高性能存储后端 (Software stack dependency, requires high-perf storage backend)

03

应用场景分析

理解单一技术的能力固然重要,但更关键的是如何将它们整合,构建一个高效协同的AI计算平台。现代AI服务器架构的设计核心正是这种分层整合的思想。

一个典型的集成案例是NVIDIA的Grace Hopper超级芯片平台。该平台将Hopper GPU(及其集成的HBM,构成Tier 0)与Grace CPU(及其连接的LPDDR5X内存,构成Tier 1)通过高达900 GB/s的NVLink-C2C高速互联技术紧密耦合 13。这种设计使得GPU能够以极高的带宽和缓存一致性方式,直接访问CPU侧高达480GB的内存,形成一个统一的地址空间。这完美诠释了不同内存层级如何协同工作,以满足单一芯片上不同计算单元的需求 8。

在此基础上,一个更完整的AI服务器可以通过PCIe总线进一步扩展其内存和存储层次:

  • 添加Tier 2 (CXL内存扩展): 通过在服务器的PCIe插槽中加入CXL控制器或交换机,可以连接CXL内存扩展模块(如三星的CMM-D),从而为系统增加数TB的内存容量 28。操作系统或虚拟机监控程序会将这部分内存识别为一个新的NUMA节点 17。这一层级对于运行内存需求超出HBM和本地DRAM总和的巨型模型,或是在内存数据库等应用中缓存海量数据至关重要 32。
  • 添加Tier 3 (GPU-Direct闪存): 服务器通过高速网络接口卡(NIC)连接到一个支持GDS的高性能存储系统(后端为NVMe SSD)。当AI应用需要加载新的训练数据批次时,应用程序调用cuFile API,即可触发数据从存储阵列经由NIC直接传输到GPU的HBM中,完全绕过CPU和系统内存,从而最大化I/O吞吐,确保GPU算力得到充分利用 22。

下图描绘了一个集成了所有这些层级的、功能完备的现代AI服务器的架构和关键数据路径。

AI场景下的多级内存分层与访问流
AI场景下的多级内存分层与访问流

AI场景下的多级内存分层与访问流

在这一整合视图中,CXL的角色尤为突出。它不仅是增加了一个内存层级,更是一种架构的“赋能者” 3。通过在标准的PCIe物理层上提供缓存一致的互联,CXL打破了CPU与其专用内存插槽之间的刚性绑定。这直接促成了内存扩展,并为更高级的内存池化(Pooling)和共享(Sharing)奠定了基础,这也是CXL 2.0及后续版本的主要目标 42。最终,CXL将推动数据中心走向“可组合式基础设施”(Composable Infrastructure),届时,机架内的CPU、GPU和内存资源可以被动态、灵活地组合,以满足特定工作负载的需求,从而极大地提升资源利用率和总体拥有成本(TCO) 5。因此,CXL不仅是层级中的一环,更是实现未来灵活、高效、分层式架构的基石。

04

结论与前瞻性建议

本文的分析表明,为应对AI带来的挑战,数据中心基础设施正明确地向一个复杂、多层次的内存与存储体系演进。没有任何单一技术能包揽一切,最优架构必然是多种技术的协同组合:利用HBM实现极致的片上性能,依赖本地DRAM完成低时延的系统任务,通过CXL获得海量的内存容量扩展和未来的资源池化能力,并借助GPU-Direct Flash打通高吞吐的数据供给通道。

基于以上分析,为企业CTO、基础设施架构师等决策者提供以下分阶段、可操作的建议:

Insights

短期策略 (当前 - 1年内):

  • 立即部署: 采购和部署集成HBM的高端AI加速器。在所有服务器上最大化配置本地DRAM容量。
  • 重点实施: 对于数据密集型训练负载,立即规划和部署GPU-Direct Storage解决方案,并配备兼容的高性能并行文件系统。这是一项技术成熟、投资回报率高的优化措施,可直接解决I/O瓶颈。
  • 启动试点: 在最新一代服务器上,开展基于CXL 1.1/2.0内存扩展模块的试点项目。重点验证其在超大模型推理等场景下的性能表现,并评估其对运维模式的影响。

中期策略 (1 - 3年):

  • 规模化CXL: 随着软件生态的成熟,规划更大规模地部署CXL 2.0/3.0解决方案。将应用重点从单纯的内存扩展,转向利用内存池化解决“搁浅GPUs”问题,以优化TCO。
  • 关注软件生态: 密切跟踪Linux内核、VMware、KVM等操作系统与虚拟化平台对CXL Fabric管理、多主机共享等高级功能的支持进展。软件的成熟度将是释放CXL全部潜力的关键。

长期策略 (3 - 5年及以后):

  • 技术观察HBF: 将高带宽闪存(HBF)列入技术观察清单。随着其在2026-2027年接近市场化,需评估其在读取密集型推理场景下,相较于成熟的CXL DRAM解决方案的性价比。
  • 架构规划可组合性: 在进行未来数据中心设计时,应围绕“资源解耦”和“可组合性”的核心理念进行架构规划。由CXL驱动的、从单一服务器向资源池演进的趋势不可逆转,提前布局将获得长期竞争优势。

数据中心内存架构的未来是动态、灵活且深刻由CXL互联技术所定义的。CXL不仅将引入新的内存层级,更将从根本上改变计算、内存和存储资源的配置、管理和使用方式。降低TCO和最大化硬件利用率的强大经济驱动力,将确保CXL生态系统以前所未有的速度走向成熟和普及 5。它将是未来十年中最值得关注和投入的内存技术,并将重新定义下一代AI基础设施的形态。

参考资料

  1. Managed-Retention Memory: A New Class of Memory for the AI Era - arXiv, accessed on August 8, 2025, https://arxiv.org/html/2501.09605v1
  2. Why the performance of your storage system matters for AI workloads - Micron Technology, accessed on August 8, 2025, https://www.micron.com/about/blog/storage/ssd/why-the-performance-of-your-storage-system-matters-for-ai-workloads
  3. Addressing The Memory Guy's CXL Conundrums - EEJournal, accessed on August 8, 2025, https://www.eejournal.com/article/addressing-the-memory-guys-cxl-conundrums/
  4. Memory Sharing with CXL: Hardware and Software Design Approaches - arXiv, accessed on August 8, 2025, https://arxiv.org/html/2404.03245v1
  5. Optimizing Data Center TCO With CXL And Compression - Semiconductor Engineering, accessed on August 8, 2025, https://semiengineering.com/optimizing-data-center-tco-with-cxl-and-compression/
  6. HBM Memory: Complete Engineering Guide & Design Optimization ..., accessed on August 8, 2025, https://www.wevolver.com/article/hbm-memory-complete-engineering-guide-design-optimization-2025
  7. GDDR6 vs HBM - Different GPU Memory Types | Exxact Blog, accessed on August 8, 2025, https://www.exxactcorp.com/blog/hpc/gddr6-vs-hbm-gpu-memory
  8. NVIDIA GH200 Grace Hopper Superchip Architecture - AMAX Engineering, accessed on August 8, 2025, https://www.amax.com/content/files/2023/12/NVIDIA_Grace_Hopper_Superchip_Architecture_Overview_Whitepaper.pdf
  9. HBM2 vs GDDR6: Engineering Deep Dive into High-Performance Memory Technologies, accessed on August 8, 2025, https://www.wevolver.com/article/hbm2-vs-gddr6
  10. What's the Difference Between GDDR and DDR Memory? | Exxact Blog, accessed on August 8, 2025, https://www.exxactcorp.com/blog/HPC/what-s-the-difference-between-gddr-and-ddr-memory-
  11. DDR4 and DDR5 Performance Comparison, Plus GDDR6 and HBM2 - BittWare, accessed on August 8, 2025, https://www.bittware.com/resources/ddr4-and-ddr5-performance-comparison/
  12. Managing Memory Tiers with CXL in Virtualized ... - SymbioticLab, accessed on August 8, 2025, https://www.microsoft.com/en-us/research/wp-content/uploads/2024/03/2024-FlatMemoryMode-Memstrata-OSDI2024.pdf
  13. NVIDIA Grace Hopper Superchip Architecture In-Depth | NVIDIA Technical Blog, accessed on August 8, 2025, https://developer.nvidia.com/blog/nvidia-grace-hopper-superchip-architecture-in-depth/
  14. CXL Memory - Samsung Semiconductor, accessed on August 8, 2025, https://semiconductor.samsung.com/cxl-memory/
  15. Compute Express Link - Wikipedia, accessed on August 8, 2025, https://en.wikipedia.org/wiki/Compute_Express_Link
  16. The Performance of CXL Memory (Latency and Bandwidth) - My Note, accessed on August 8, 2025, https://0x10.sh/the-performance-of-cxl-memory-latency-bandwidth
  17. Toward CXL-Native Memory Tiering via Device-Side Profiling - arXiv, accessed on August 8, 2025, https://arxiv.org/html/2403.18702v1
  18. OPPORTUNITIES AND CHALLENGES FOR COMPUTE EXPRESS LINK (CXL), accessed on August 8, 2025, https://computeexpresslink.org/wp-content/uploads/2024/11/CR-CXL-101_FINAL.pdf
  19. Sandisk and SK hynix working to standardize High Bandwidth Flash ..., accessed on August 8, 2025, https://blocksandfiles.com/2025/08/07/sandisk-and-sk-hynix-working-to-standardize-high-bandwidth-flash/
  20. SanDisk Develops HBM Killer: High-Bandwidth Flash (HBF) Allows 4 TB of VRAM for AI GPUs | TechPowerUp, accessed on August 8, 2025, https://www.techpowerup.com/332516/sandisk-develops-hbm-killer-high-bandwidth-flash-hbf-allows-4-tb-of-vram-for-ai-gpus
  21. Sandisk to Collaborate with SK hynix to Drive Standardization of High-Bandwidth Flash Memory Technology, accessed on August 8, 2025, https://www.sandisk.com/company/newsroom/press-releases/2025/2025-08-06-sandisk-to-collaborate-with-sk-hynix-to-drive-standardization-of-high-bandwidth-flash-memory-technology
    1. Overview Guide — GPUDirect Storage Overview Guide, accessed on August 8, 2025, https://docs.nvidia.com/gpudirect-storage/overview-guide/index.html
  22. GPUDirect Storage: A Direct Path Between Storage and GPU Memory - NVIDIA Developer, accessed on August 8, 2025, https://developer.nvidia.com/blog/gpudirect-storage/
  23. What is GPUDirect Storage? | WEKA, accessed on August 8, 2025, https://www.weka.io/learn/glossary/gpu/what-is-gpudirect-storage/
  24. The Micron - 9400 NVMe SSD Performance With NVIDIA - Magnum IO GPUDirect - Storage Platform, accessed on August 8, 2025, https://www.micron.com/content/dam/micron/global/public/products/white-paper/micron-9400-nvidia-gds-vs-comp-white-paper.pdf
  25. Accelerate AI and ML workloads with OCI, NVIDIA Magnum IO GPUDirect Storage, and IBM Storage Scale - Oracle Blogs, accessed on August 8, 2025, https://blogs.oracle.com/cloud-infrastructure/post/accelerate-ai-ml-workloads-oci-nvidia-ibm
  26. GPUDirect Demystified: Why Your File System is Crucial for Maximum GPU Throughput & Efficient AI Data Storage - Hammerspace, accessed on August 8, 2025, https://hammerspace.com/gpudirect-demystified-why-your-file-system-is-crucial-for-maximum-gpu-throughput-efficient-ai-data-storage/
  27. Samsung Electronics Introduces Industry's First 512GB CXL Memory Module, accessed on August 8, 2025, https://news.samsung.com/us/samsung-electronics-introduces-industrys-first-512gb-cxl-memory-module/
  28. Press Room - Compute Express Link, accessed on August 8, 2025, https://computeexpresslink.org/news/
  29. CXL™ Consortium Board of Directors – Statements of Support - Compute Express Link, accessed on August 8, 2025, https://computeexpresslink.org/wp-content/uploads/2024/01/CXL_2.0-Launch-Statements-of-Support_FINAL.pdf
  30. Products - ASTERA LABS, INC., accessed on August 8, 2025, https://www.asteralabs.com/products/
  31. Leo CXL® Smart Memory Controllers - ASTERA LABS, INC., accessed on August 8, 2025, https://www.asteralabs.com/products/leo-cxl-smart-memory-controllers/
  32. Lenovo ThinkSystem SR650 V3 Server Product Guide, accessed on August 8, 2025, https://lenovopress.lenovo.com/lp1601-thinksystem-sr650-v3-server
  33. The Current State Of CXL Support On Linux - Phoronix, accessed on August 8, 2025, https://www.phoronix.com/news/Linux-6.11-CXL
  34. Run Modern, AI, and Traditional Apps Better with vSphere in VMware Cloud Foundation 9.0, accessed on August 8, 2025, https://blogs.vmware.com/cloud-foundation/2025/06/17/run-modern-ai-and-traditional-apps-better-with-vsphere-in-vcf-9-0/
  35. Boost VMware vSphere 8 U3 Performance with Memory Tiering - StarWind, accessed on August 8, 2025, https://www.starwindsoftware.com/blog/improve-server-consolidation-with-vmware-vsphere-8-u3-memory-tiering-feature/
  36. GPUDirect Storage support for IBM Storage Scale, accessed on August 8, 2025, https://www.ibm.com/docs/en/storage-scale/5.2.2?topic=architecture-gpudirect-storage-support-storage-scale
  37. Amazon FSx for Lustre now supports Elastic Fabric Adapter and ..., accessed on August 8, 2025, https://aws.amazon.com/about-aws/whats-new/2024/11/amazon-fsx-lustre-elastic-fabric-adapter-nvidia-gpudirect-storage/
  38. NVIDIA Grace Hopper Superchip Architecture Whitepaper, accessed on August 8, 2025, https://resources.nvidia.com/en-us-grace-cpu/nvidia-grace-hopper
  39. CMM-D | CXL Memory | Samsung Semiconductor Global, accessed on August 8, 2025, https://semiconductor.samsung.com/cxl-memory/cmm-d/
  40. CXL 3.0 and the Future of AI Data Centers | Keysight Blogs, accessed on August 8, 2025, https://www.keysight.com/blogs/en/tech/digital-test-instruments/2024/07/10/cxl-3-0-and-the-future-of-ai-data-centers
  41. Redefining Possibilities in Memory Technology: Samsung CXL Memory Appliance with Orchestration Console | Samsung Semiconductor Global, accessed on August 8, 2025, https://semiconductor.samsung.com/news-events/tech-blog/redefining-possibilities-in-memory-technology-samsung-cxl-memory-appliance-with-orchestration-console/
  42. Compute Express Link (CXL): All you need to know - Rambus, accessed on August 8, 2025, https://www.rambus.com/blogs/compute-express-link/
  43. System Composability Using CXL, accessed on August 8, 2025, https://www.openfabrics.org/wp-content/uploads/2024-workshop/2024-workshop-presentations/session-10.pdf
  44. CXL Memory Pool Appliance Market Research Report 2033 - Dataintelo, accessed on August 8, 2025, https://dataintelo.com/report/cxl-memory-pool-appliance-market

---【本文完】---


👇阅读原文,查看历史文章,推荐PC端打开 💻(更新到 7.31)。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-08-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 王知鱼 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 参考资料
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档