云中最快的人工智能数据平台

Hammerspace

发布于 2025-07-27 13:18:48

16600

代码可运行

文章被收录于专栏：NFSNFS

运行总次数：0

代码可运行

Hammerspace数据平台已登陆Oracle Cloud。相同的云，相同的性能。成本减半（相比较云上Lustre）。

OCI：https://cloudmarketplace.oracle.com/marketplace/en_US/listing/185187837

为什么传统文件系统会给云端AI带来负担

AI工作负载越来越多地在本地和云端运行。随着计算需求的激增，电力、散热和硬件可用性受到限制，这促使组织越来越依赖混合云和云计算。

像Lustre这样的传统文件系统被用于云端AI的托管服务中，主要是因为当时没有更好的选择。虽然它们可以为某些工作负载提供强大的性能，但它们需要大量的调优、专业知识和持续管理。这些系统是为严格控制的特定硬件和网络设置而构建的，这使得它们与云的灵活多样环境格格不入。因此，它们的基础设施需求经常与云部署模型冲突，导致资源浪费和成本增加。

Hammerspace应运而生，它具有快速的GPU I/O速度、易于管理和扩展、云原生且基于标准。

其它并行文件系统或存储方案	Hammerspace Tier 0
GPU I/O无法线形扩展 - 更多的GPU = 更多基础架构设施	I/O线形扩展 - 每台GPU服务器都通过本地NVMe提供读写
需要专有网络 - IB，后端网络	使用现有网络 - 100/200/400/800GbE 或 IB
GPU服务器本地NVMe磁盘未被使用 - 闲置在GPU服务器	解锁本地NVMe磁盘 - 将本地NVMe磁盘融入全局共享文件系统
如果使用本地NVMe磁盘，它又是一个孤岛 - 不受保护或难以共享	本地NVMe磁盘成为可共享，受保护的高性能存储层 -全局文件系统 + 数据编排
专有客户端软件 - 增加复杂性，消耗系统资源	无需专有客户端软件 - 使用原生标准Linux，CPU开销几乎为0
专有接口 - 需要通过重新设计应用程序访问数据	兼容POSIX和NFSv4.2 -无缝适配现有工作流
更多电力消耗，更多机架占用，更多成本 - 为了保持性能	紧凑，节能的架构 -更少的硬件，更多的吞吐

云上的Hammerspace Tier 0

Hammerspace Tier 0是超快共享存储的新层，它使用GPU服务器中的本地NVMe磁盘，并通过使这些磁盘成为Hammerspace并行全局文件系统的一部分，将其变成共享存储层。Tier 0可以编排，以便在存储层之间或站点和云之间无缝移动。

Hammerspace Tier 0利用我们基于标准的并行文件系统架构——并利用对绕过NFS客户端和服务器的Linux内核的更新，以及连接NFS客户端和服务器的网络堆栈和网络适配器硬件（如下图2所示）。实际上，这在GPU和本地NVMe存储之间创建了一个“捷径”或更直接的数据路径，这减少了延迟，增加了带宽，并如本分析所示，加快了几个数量级的检查点（Checkpoint）。

即使使用昂贵的400Gb/s InfiniBand和高性能外部存储，跨网络的写入速度也比直接写入GPU服务器本地NVMe慢2.5倍。在100Gb/s网络上，速度慢了近10倍。Tier 0以每单位带宽的最大吞吐实现NVMe磁盘性能最大化。

云上检查点（Checkpoint）——速度高达100倍以上

利用云中的Tier 0展现了性能的极端差距，如一台八卡GPU H100实例上的500GB检查点（Checkpoint）需要：

~4.5秒到本地NVMe（Tier 0）
到AWS EBS io2大约139秒
~9分钟到AWS EBS gp3

注：假设Tier 1中访问外部存储的网络已经得到优化，可达到90%的吞吐

异步检查点有助于减少GPU闲置时间，但它并不能解决核心问题：当所有数据流量必须穿越网络时都会受到影响。随着上下文长度的增长和集群的扩展，这种流量呈指数级增长。

当然，您可以尝试将Hammerspace Tier 0性能与昂贵的设备组合相匹配：如800Gb/s网络和昂贵的高性能存储，其成本和功耗可想而知。

Oracle Cloud上的Hammerspace Tier 0

Hammerspace 与 Oracle 云基础设施 (OCI) 携手合作，通过提供一个高性能数据平台来简化混合云 AI，该平台在一个单一的全球命名空间中横跨本地和 OCI 云区域。

通过在 OCI 上部署 Hammerspace，组织可以轻松地编排和移动来自任何存储源的数据到 OCI ，为 AI 工作负载提供无与伦比的文件和对象性能，并在全球多个 OCI 区域和本地环境中为 GPU 计算提供支持，所有这些都同时简化了全球数据访问和管理。

基于Tier 0的训练和推理 - 读带宽提升2.5倍，写带宽提升2倍，延时降低51%

《该对比数据基于使用fio的基准测试进行分析，客户端：2，文件：16。文件大小：50GB。直连：是的。块大小：1MB。IO深度：2，IO引擎：libaio。工作数量：1（每个文件）。运行时间=300，工作负载：100%顺序读取，100%顺序写入，100%顺序50/50读/写混合，迭代：3。结果是平均的。》

但是，实现NVMe的原始速度仅仅是个开始。

Hammerspace 通过将每台 GPU 服务器转变为其并行全球文件系统中的一个节点，来激活这种本地 NVMe 容量。它不仅仅是一个挂载点，它还是一个完全编排的性能层，文件根据您定义的业务逻辑，在 Tier 0 和任何其他存储层或备用区域之间自动、智能地移动。

需要将数据集靠近 GPU 进行训练？没问题。需要将输出移动到对象存储以实现持久性？也没问题。无需手动干预。没有分叉副本。没有孤立的基础设施。

这种自动化数据编排由 Hammerspace 基于策略的“目标”驱动，这些“目标”在文件或对象层面运行，异步且实时。您可以获得文件粒度的细致控制，以管理数据放置、保护和性能——而且绝不会减慢 GPU 的速度。

高性能文件存储——与 Lustre 性能相同，成本减半

在当今的混合多云世界中，AI 性能必须在不增加复杂性、不必要的过度配置或失控成本的情况下进行扩展。过去为 HPC 设计的传统文件系统是为数据中心运行而优化，而非云端。

下表总结了在云中使用 Managed Lustre 运行典型高性能存储环境的成本，以及在云中使用 Hammerspace 运行类似环境的成本。为了完整性，显示了根磁盘和归档存储的成本，但为了本次分析的目的，这些成本保持不变。

《与 Lustre 性能相同，成本降低57%》

混合云部署示例

在此示例中，Hammerspace 元数据服务器部署在两个 VM.Standard.E2.8 型机上，Hammerspace DSX 节点也部署在两个 VM.Standard.E2.8 型机上。

每个OCI云区域都包Hammerspace 数据平台和 H100 GPU服务器，并将这些GPU服务器中的本地NVMe磁盘用作 Tier 0 层。

此外，还使用了 Tier 1 存储层。这些是带有内置 NVMe 磁盘的 Linux 虚拟机（使用了 DenseIO 型机）。

最后，OCI 对象存储用作分层存储，同时也是用于在站点之间传输数据的共享对象存储。

方案彩页：https://242478968.fs1.hubspotusercontent-na2.net/hubfs/242478968/Website%20Documents/Solution%20Briefs/Hammerspace%20on%20OCI%20-%20Solution%20Guide.pdf

通过Tier 0方案（特别是在大型GPU集群与大容量硬盘配置下），企业可实现双重优势：既能使用市场上性能顶尖的存储方案，确保GPU/CPU/ARM数据供给和工作负载流畅运行，又能充分利用已投资的NVMe硬盘资源和现有网络基础设施。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2025-06-23，如有侵权请联系 cloudcommunity@tencent.com 删除

人工智能