Hammerspace数据平台已登陆Oracle Cloud。相同的云,相同的性能。成本减半(相比较云上Lustre)。
OCI:https://cloudmarketplace.oracle.com/marketplace/en_US/listing/185187837
为什么传统文件系统会给云端AI带来负担
AI工作负载越来越多地在本地和云端运行。随着计算需求的激增,电力、散热和硬件可用性受到限制,这促使组织越来越依赖混合云和云计算。
像Lustre这样的传统文件系统被用于云端AI的托管服务中,主要是因为当时没有更好的选择。虽然它们可以为某些工作负载提供强大的性能,但它们需要大量的调优、专业知识和持续管理。这些系统是为严格控制的特定硬件和网络设置而构建的,这使得它们与云的灵活多样环境格格不入。因此,它们的基础设施需求经常与云部署模型冲突,导致资源浪费和成本增加。
Hammerspace应运而生,它具有快速的GPU I/O速度、易于管理和扩展、云原生且基于标准。
其它并行文件系统或存储方案 | Hammerspace Tier 0 |
---|---|
GPU I/O无法线形扩展 - 更多的GPU = 更多基础架构设施 | I/O线形扩展 - 每台GPU服务器都通过本地NVMe提供读写 |
需要专有网络 - IB,后端网络 | 使用现有网络 - 100/200/400/800GbE 或 IB |
GPU服务器本地NVMe磁盘未被使用 - 闲置在GPU服务器 | 解锁本地NVMe磁盘 - 将本地NVMe磁盘融入全局共享文件系统 |
如果使用本地NVMe磁盘,它又是一个孤岛 - 不受保护或难以共享 | 本地NVMe磁盘成为可共享,受保护的高性能存储层 -全局文件系统 + 数据编排 |
专有客户端软件 - 增加复杂性,消耗系统资源 | 无需专有客户端软件 - 使用原生标准Linux,CPU开销几乎为0 |
专有接口 - 需要通过重新设计应用程序访问数据 | 兼容POSIX和NFSv4.2 -无缝适配现有工作流 |
更多电力消耗,更多机架占用,更多成本 - 为了保持性能 | 紧凑,节能的架构 -更少的硬件,更多的吞吐 |
云上的Hammerspace Tier 0
Hammerspace Tier 0是超快共享存储的新层,它使用GPU服务器中的本地NVMe磁盘,并通过使这些磁盘成为Hammerspace并行全局文件系统的一部分,将其变成共享存储层。Tier 0可以编排,以便在存储层之间或站点和云之间无缝移动。
Hammerspace Tier 0利用我们基于标准的并行文件系统架构——并利用对绕过NFS客户端和服务器的Linux内核的更新,以及连接NFS客户端和服务器的网络堆栈和网络适配器硬件(如下图2所示)。实际上,这在GPU和本地NVMe存储之间创建了一个“捷径”或更直接的数据路径,这减少了延迟,增加了带宽,并如本分析所示,加快了几个数量级的检查点(Checkpoint)。
即使使用昂贵的400Gb/s InfiniBand和高性能外部存储,跨网络的写入速度也比直接写入GPU服务器本地NVMe慢2.5倍。在100Gb/s网络上,速度慢了近10倍。Tier 0以每单位带宽的最大吞吐实现NVMe磁盘性能最大化。
云上检查点(Checkpoint)——速度高达100倍以上
利用云中的Tier 0展现了性能的极端差距,如一台八卡GPU H100实例上的500GB检查点(Checkpoint)需要:
注:假设Tier 1中访问外部存储的网络已经得到优化,可达到90%的吞吐
异步检查点有助于减少GPU闲置时间,但它并不能解决核心问题:当所有数据流量必须穿越网络时都会受到影响。随着上下文长度的增长和集群的扩展,这种流量呈指数级增长。
当然,您可以尝试将Hammerspace Tier 0性能与昂贵的设备组合相匹配:如800Gb/s网络和昂贵的高性能存储,其成本和功耗可想而知。
Oracle Cloud上的Hammerspace Tier 0
Hammerspace 与 Oracle 云基础设施 (OCI) 携手合作,通过提供一个高性能数据平台来简化混合云 AI,该平台在一个单一的全球命名空间中横跨本地和 OCI 云区域 。
通过在 OCI 上部署 Hammerspace,组织可以轻松地编排和移动来自任何存储源的数据到 OCI ,为 AI 工作负载提供无与伦比的文件和对象性能 ,并在全球多个 OCI 区域和本地环境中为 GPU 计算提供支持,所有这些都同时简化了全球数据访问和管理 。
基于Tier 0的训练和推理 - 读带宽提升2.5倍,写带宽提升2倍,延时降低51%
《该对比数据基于使用fio的基准测试进行分析,客户端:2,文件:16。文件大小:50GB。直连:是的。块大小:1MB。IO深度:2,IO引擎:libaio。工作数量:1(每个文件)。运行时间=300,工作负载:100%顺序读取,100%顺序写入,100%顺序50/50读/写混合,迭代:3。结果是平均的。》
但是,实现NVMe的原始速度仅仅是个开始。
Hammerspace 通过将每台 GPU 服务器转变为其并行全球文件系统中的一个节点,来激活这种本地 NVMe 容量。它不仅仅是一个挂载点,它还是一个完全编排的性能层,文件根据您定义的业务逻辑,在 Tier 0 和任何其他存储层或备用区域之间自动、智能地移动。
需要将数据集靠近 GPU 进行训练?没问题。需要将输出移动到对象存储以实现持久性?也没问题。无需手动干预。没有分叉副本。没有孤立的基础设施。
这种自动化数据编排由 Hammerspace 基于策略的“目标”驱动,这些“目标”在文件或对象层面运行,异步且实时。您可以获得文件粒度的细致控制,以管理数据放置、保护和性能——而且绝不会减慢 GPU 的速度。
高性能文件存储——与 Lustre 性能相同,成本减半
在当今的混合多云世界中,AI 性能必须在不增加复杂性、不必要的过度配置或失控成本的情况下进行扩展。过去为 HPC 设计的传统文件系统是为数据中心运行而优化,而非云端 。
下表总结了在云中使用 Managed Lustre 运行典型高性能存储环境的成本,以及在云中使用 Hammerspace 运行类似环境的成本。为了完整性,显示了根磁盘和归档存储的成本,但为了本次分析的目的,这些成本保持不变。
《与 Lustre 性能相同,成本降低57%》
混合云部署示例
在此示例中,Hammerspace 元数据服务器部署在两个 VM.Standard.E2.8 型机上,Hammerspace DSX 节点也部署在两个 VM.Standard.E2.8 型机上。
每个OCI云区域都包Hammerspace 数据平台和 H100 GPU服务器,并将这些GPU服务器中的本地NVMe磁盘用作 Tier 0 层。
此外,还使用了 Tier 1 存储层。这些是带有内置 NVMe 磁盘的 Linux 虚拟机(使用了 DenseIO 型机)。
最后,OCI 对象存储用作分层存储,同时也是用于在站点之间传输数据的共享对象存储。
方案彩页:https://242478968.fs1.hubspotusercontent-na2.net/hubfs/242478968/Website%20Documents/Solution%20Briefs/Hammerspace%20on%20OCI%20-%20Solution%20Guide.pdf
通过Tier 0方案(特别是在大型GPU集群与大容量硬盘配置下),企业可实现双重优势:既能使用市场上性能顶尖的存储方案,确保GPU/CPU/ARM数据供给和工作负载流畅运行,又能充分利用已投资的NVMe硬盘资源和现有网络基础设施。