✨存储层级中的性能“圣杯”是什么?
主持人David Nicholson与Hammerspace全球市场高级副总裁Molly Presley以采访对话的形式,共同探讨了Hammerspace如何释放现有GPU服务器中闲置NVMe存储的潜力,为AI工作负载构建大规模高性能数据池。
对应下方的采访内容,我们也为此准备了一份中文版的Executive Brief文件:
重构GPU算力架构:解锁你的第0层(超高速共享存储层)
实现存储成本直降+能耗锐减+释放GPU算力黄金周期
采访要点:
– 全新第0层存储的技术理念
– Hammerspace应对现代数据挑战的解决方案
– 技术路线图与未来展望
– 第0层存储如何加速检查点操作、提升GPU利用率并降低成本
– 实际应用场景与客户收益
David Nicholson:我想听听最新动态。听说Hammerspace在搞第0层存储?这到底是怎么回事?
Molly Presley:是的,我们创造了一个存储行业前所未有的新层级——全球首创,我们非常兴奋。我们的宣传语是"您可能正坐在金矿上却不自知"。具体来说,目前NVIDIA的DGX服务器等大型计算节点普遍内置固态存储,但这些存储资源在AI训练等高性能计算场景中利用率极低,因为它们原本并非为共享存储设计。而通过Hammerspace的第0层技术,洛斯阿拉莫斯实验室等顶尖AI机构以及大型云服务商,现在可以激活这些"沉睡"的存储资源。
David Nicholson:具体规模有多大?这些存储资源真的能达到一个很大的体量吗?
Molly Presley:当然,大规模部署可达20到30PB,这体量非常可观。试想重新采购30PB Tier1高速存储的成本,而客户可能早已拥有了这些硬件,只需启用Hammerspace的技术即可激活。
David Nicholson:那么第0层存储的超高性能空间具体存放的是什么?虽然速度极快,但实际用途是什么?
Molly Presley:关键在于实现共享存储环境。过去,上百个节点各自为战,形成数据孤岛——如何用上百个独立数据池训练大语言模型?数据工程师又该如何访问和识别这些数据?而我们,可以通过统一命名空间将其整合为共享存储环境,在保证高速特性的同时提供数据保护。毕竟,如果缺乏保护机制,没人敢把重金计算的数据存放在可能故障的磁盘上。而实际应用场景中,客户主要将其用于加速检查点操作——检查点写入速度提升后,数据填满时可自动编排迁移至Tier1或外部环境,因此它本质上是数据和检查点的核心暂存层。
David Nicholson:说到检查点,恢复速度确实关键。这是你们的主要价值点吗?
Molly Presley:确实如此,但更重要的是避免GPU在检查点过程中闲置。假设典型的计算环境每小时执行一次检查点操作,耗时5-10分钟——这意味着GPU有8%-12%的时间处于空转状态。通过第0层技术,这些闲置时间可完全转化为有效算力。当然,故障恢复速度也会提升,但客户最关注的始终是如何最大化GPU生产力。
David Nicholson:这听起来是纯粹的效率增益,是否存在潜在风险?我们是否应该担心GPU资源被存储操作过度占用?
Molly Presley:完全不必担心。我们调研过众多的AI环境架构师,他们此前未采用这种方案的原因有二:一是无法接受数据孤岛,二是担心磁盘可靠性。传统SSD配置缺乏纠删码或镜像等保护机制,仅仅依靠JBOD(直连存储),存在数据丢失风险。而Hammerspace通过企业级保护方案彻底解决了这些问题。更关键的是,这些存储资源本就已完成部署调试——硬件已安装、网络已连通、老化测试已通过,启用过程无需新增任何基础设施投入,更不会占用GPU内存资源。
David Nicholson:这太疯狂了。真的非常疯狂。
Molly Presley:(笑)确实如此。
David Nicholson:在整体数据编排框架下,你们是否在创建单一的大型存储池?这些设备的配置方式有哪些可选方案?如果用Hammerspace聚合1000个这样的节点,具体会呈现怎样的架构?
Molly Presley:本质上,Hammerspace构建的是一个并行全局文件系统。所有节点都是这个文件系统的成员——例如当数据在100个DGX节点生成时,由于元数据会即时同步到文件系统,这些数据可以立即成为全局文件系统的组成部分。无论数据源来自哪里,最终都会被聚合为统一的数据集。应用程序、用户或模型看到的始终是跨节点的完整数据集。当SSD即将满载或需要云端处理时,数据编排策略会自动触发迁移指令,比如"SSD容量已达阈值"或"该数据集需迁移至云端"。而业务端全程无感知,用户可以始终看到完整的命名空间,无论数据实际存储位置如何变化。
David Nicholson:(笑)Molly你简直会读心术,这正是我想问的。
Molly Presley:我们心有灵犀。
David Nicholson:确实。每当提及数据分层,人们总会想到层级间的迁移时机。你刚才解释了云迁移场景,但传统"热数据存高速介质,冷数据存低速介质"的分层理念在当今是否仍然适用?第0层是否需要固定存储特定数据?
Molly Presley:这是个好问题。我深知传统基于数据"年龄"的分层方式——数据生成后即按时间归档。但AI时代的数据使用模式完全不同:科学家需要随时关联不同数据集探索价值,你永远无法预判哪些数据会对AI任务产生关键影响。现代数据系统的解决方案是通过统一元数据架构,让所有存储层的数据可被即时检索。当需要运行任务时,系统会自动将相关数据迁移至高速存储或临近计算的云端节点,整个过程不中断业务访问。某些客户可能会将数据“锁定”在特定GPU中,或在处理后存入Tier1/2中,但最关键的是——所有这些策略都通过软件自动化实现,不再需要IT人员手动拷贝数据。
David Nicholson:最近看到NVMe设备容量已达60/80/100TB...
Molly Presley:是的,容量惊人。
David Nicholson:回到最初话题,你们实际遇到的闲置NVMe设备平均容量是多少?
Molly Presley:当前典型配置是每块30TB,每节点8块,即240TB/节点。即便只有10个GPU节点的传统企业环境,也能轻松获得PB级存储池。
David Nicholson:这完全颠覆了传统认知!过去我们说的"闲置资源"可能只是9GB的启动盘腾出1GB空间,而你们谈论的是具有战略价值的海量资源。当客户重金投入GPU集群时,是否可以说Hammerspace实质上在帮助他们完成了对AI算力的"变相融资"?
Molly Presley:完全正确。我们某个第0层客户就面临这种情况:AI集群已建成,但数据中心电力满载无法扩容存储。启用Hammerspace后,他们做到了零新增电力消耗,就增加了30PB存储容量,这直接释放了持续开展AI研究的更多可能性。可见价值不仅体现在资金节省——当电力/算效成为瓶颈时,激活闲置存储资源甚至能避免采购额外GPU。
David Nicholson:说到我的背景,我可是从传统存储行业摸爬滚打出来的老派工程师——
Molly Presley:(笑)谁不是呢?
David Nicholson:你看我现在转型得多彻底(指向自己)。过去平台升级可是大难题,尤其是面对如今海量数据迁移。听说很多超大规模数据中心正在加速硬件更新周期,通过部署新一代CPU节省电力来购买更多GPU——正如你所说,电力资源有限,别无选择。
Molly Presley:确实如此。
David Nicholson:提醒下大家...
Molly Presley:(打趣)直接在旁边建个核电站呗。
David Nicholson:这正在成为现实!等着看那些曾经反对核电的人改口会很有趣。不过说正经的,使用Hammerspace全局文件系统进行并行操作时,退役含内置存储的节点是否就变得很简单?
Molly Presley:完全正确。当从Hammerspace平台下线存储系统或节点时,业务端完全无感知。再也不用深夜加班通知停机维护——用户始终通过元数据与文件系统交互,即使物理存储的离线也毫无影响。IT团队可以按需迁移数据,迁移过程即使持续数周,业务访问也永不中断。这种架构真正实现了用户体验与基础设施管理的解耦,无论是上云还是下云都无需调整业务指向。
David Nicholson:20年前我们管这叫"天方夜谭"。
Molly Presley:现在这叫"魔法"。
David Nicholson:敢不敢"吐槽"下Hammerspace团队,透露些其他新技术?还是专注宣传第0层?
Molly Presley:第0层存储确实是革命性突破,但我们在对象存储对接和元数据加速方面也有重要更新——比如实现S3对象数据与文件工作流的无缝衔接,确保GPU能高效访问多协议数据源。当然,这些都比不上第0层存储的行业影响力。
David Nicholson:Molly,我受益匪浅。不得不说这是我听到的最劲爆的发布消息之一,就是Hammerspace让客户"免费"获得NVMe存储的办法——毕竟硬件成本早已包含在之前的采购成本中了。
Molly Presley:完全正确!这就是技术赋能的魔力。