前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Solidigm:NVMe SSD 在AI存储中的价值

Solidigm:NVMe SSD 在AI存储中的价值

作者头像
数据存储前沿技术
发布于 2025-02-11 11:47:14
发布于 2025-02-11 11:47:14
2690
举报

全文概览

文章探讨人工智能机器学习(AI/ML)数据管道中的存储解决方案,强调了固态硬盘(SSD)尤其是NVMe SSD在不同阶段的应用价值。

首先,概述了AI/ML数据处理流程的关键步骤,包括数据的输入、准备、训练、检查点保存、推理以及归档验证等。接着,详细比较了FIO基于工作负载下,不同类型的存储设备(如HDD与NVMe SSD)在数据读写上的性能差异,显示NVMe SSD在AI和ML应用中展现出更好的性能和适应性。

文中进一步讨论了在AI集群环境中,数据如何在不同的计算节点之间高效移动,涉及数据的多个处理阶段。特别提到了使用不同级别的存储层次(如NAND cache、对象存储层和所有闪存高性能层),以优化数据访问速度和降低能耗。此外,文中还讨论了QLC技术如何在不牺牲性能的前提下,提供更高的存储密度和更低的成本,这对于大规模AI部署尤为重要。

文章为工程师和架构师提供了一个关于如何有效利用现代存储技术来支持AI应用发展的深入视角。

议程

  • AI/ML 数据管道概述
  • AI/ML 集群中的数据移动
  • 基于 FIO 的工作负载性能
  • SSD 使用范围

Note

鹏弟9月末曾整理过一篇 Solidigm 发布的存储产品材料,与本文较类似,差异点在于本文对AI工作流基于IO特征进行了FIO 测试,数据更加详实,同时对 Solidigm 产品的报道做了更新。

AI 工作流的数据意识

关注以下重点:

  • AI数据生产流大概可划分为5个过程,分别为:数据摄入(数据湖存储)、数据准备(基于ETL或AI分拣)、模型开发(即通常意义的训练环节)、模型应用(区分微调、推理和RAG等应用场景)、模型归档(过程模型或历史数据);
  • 不同过程,数据的规模(决定存储方案的容量选型);
  • 不同过程,计算过程的IO特征(决定存储方案的性能选型)

集群中的数据流动

  1. 数据导入(Data Ingest)
    • 通过网络将数据顺序写入对象存储层。
  2. 数据准备(Data Prep)
    • 从对象存储层顺序读取到计算层;约 90% 的数据被 CPU 顺序读取用于数据预处理
  3. 训练(Training)
    • 在计算层进行大约 95% 的随机读取,GPU 用于训练模型。
  4. 检查点(Checkpointing)
    • 将数据顺序写入计算服务器存储层,同时根据需要进行读取以恢复数据。
  5. 推理(Inference)
    • 从计算层已训练好的模型中进行随机读取(可选的 RAG)。
  6. 归档(Archive)
    • 将模型的输入和输出随机写入对象存储层以进行归档。

Note

在一张图里将集群节点、存储介质分层、数据IO特征,都标注出来,值得参考和借鉴!只有真问题意识才能导向清晰、明朗的结论!


FIO 测试数据

FIO 测试方法

FIO(Flexible I/O Tester)是一种广泛用于测试存储设备性能的工具,它通过模拟不同类型的工作负载来评估硬盘、固态硬盘以及存储系统的性能。在这张表中,基于 FIO 的性能分析是通过执行不同的读写操作类型来测量存储设备在 AI/ML 工作负载中的表现。具体来说,FIO 会在不同的条件下运行以下类型的测试:

  1. 顺序写入(Sequential Write):测试数据以连续的顺序写入存储设备,通常用于评估存储设备在处理大规模连续数据流时的性能。
    • 32KB 顺序写入 QD32测试每次写入 32KB 数据块,并且在测试过程中使用 32 个并发的队列深度(QD32)。
    • 128KB 顺序写入 QD32相似于上面的顺序写入,但数据块的大小是 128KB。
  2. 随机读取(Random Read):测试存储设备从随机位置读取数据,适用于评估设备在处理随机存取请求时的性能。
    • 4KB 随机读取 QD32(90%)测试设备随机读取 4KB 的数据块,队列深度为 32,其中 90% 的操作为读取请求。
    • 4KB 随机读取 QD512测试 4KB 数据块的随机读取,队列深度为 512。
  3. 混合工作负载:结合了顺序写入和随机读取,模拟更复杂的负载场景,如训练、推理等 AI/ML 工作负载。
    • 128KB 顺序写入 10% QD324KB 随机读取 90% QD32:组合测试,模拟 AI/ML 模型训练时的数据处理情况。
  4. 顺序读取(Sequential Read):测试存储设备从存储介质顺序读取数据,通常用于数据访问模式是顺序的场景。
    • 128KB 顺序读取 QD32在存储设备中顺序读取 128KB 的数据块,队列深度为 32。

FIO 会记录这些操作在不同 SSD 和硬盘上的吞吐量(GB/s)以及响应时间等性能指标。通过对比不同存储介质(如 HDD、PCIe Gen4 和 PCIe Gen5 SSD)在这些工作负载下的表现,可以得出各个存储设备在 AI/ML 任务中的相对性能。这些数据帮助评估不同存储方案在 AI/ML 场景中的适用性。

从测试对象来看,主要比较 HDD 与几种不同 SSD 产品(Solidigm P5336、P5520、PS1010)在不同场景的带宽性能。

值得留意的是HDD的存储性能数据,考虑到云化环境下80%的数据是存储在HDDs上的,企业对基础设施的投入成本敏感,短时间内很难贸然大批量更换。

同为容量型的 P5336 单盘提供30TB(高于 HDD的 24TB),容量更大的同时,各种工作负载下的IO带宽更是大幅高出HDDs。


SSD 用在哪里?

区分 两种业务场景:

Cloud(云端): 左图

  1. 作为 GPU 服务器中的 NVMe 数据缓存驱动器这里的 SSD 用作 GPU 服务器中的数据缓存层,以提供高速度的存储访问,帮助处理高速的数据流动。
  2. 在全闪存高性能层中,支持较低性能的 HDD在这个层次,SSD 主要作为高性能存储,与较低性能的硬盘(HDD)共同工作。

On-Prem(本地): 右图

  1. GPU 服务器与全 QLC 对象存储层在本地部署中,GPU 服务器通过 SSD 存储与全 QLC(四层单元)对象存储层进行数据交互。这种配置适用于需要大量存储但对速度要求相对较低的工作负载。

Note

NVMe SSD 主要还是面向热数据的存储方案,需要将经常访问的高频数据驻留在离计算节点更近的位置,除了介质上的配置方案之外,还可以基于缓存算法来提高效率,这一领域 Alluxio 可能是一个备选方案。


大容量 QLC 方案的优势

当前:TLC + HDD 数据管道(左图)

  • GPU每个 GPU 服务器(H100 GPU 服务器)与多个 TLC 存储服务器相连接。
  • 全闪存层(All-Flash)部署了多个 TLC 存储服务器。
  • 全 HDD 存档层(All-HDD Archival Tier)24TB 存储容量,使用 HDD 存储服务器来存储数据。

QLC:统一的高密度数据管道 (右图)

  • GPU与多个 QLC 存储服务器连接。
  • 全 QLC 层(All-QLC)61.44TB 存储容量,所有存储使用 QLC(四层单元)驱动器。

优势:系统带宽得到显著提升,同时占地面积和功耗也得到优化。此外,QLC 提供了更高存储密度,使得更多 GPU 服务器可以在相同空间内运行。


HDDs 与 QLC SSD 对比

QLC SSD 在容量、性能、可靠性和功率效率方面相对于传统 HDD 提供了显著的优势。QLC SSD 不仅可以提供更大的存储容量和更高的性能,还在可靠性和能效方面表现出色。它们为 AI 数据处理提供了更高效、更可靠的存储解决方案,同时节省了电力和机架空间。

Note

唯一缺少的、也是最关键的,建设成本!短期来看QLC SSD 场景落地最大的问题还是 单位成本较 HDDs 高太多,且不论软件和系统应用生态的挑战


Solidigm 存储产品族

图展示了在不同 AI 数据存储阶段(如数据导入、准备、训练等)所需的存储性能要求,并根据每个阶段的具体需求推荐了不同的 Solidigm SSD 产品。

Note

多么清晰的产品介绍!虽然没有严谨的具体数据,但通过矩阵和图标,清晰传递了产品的差异和选型建议,值得市场营销同业学习!


小结

  • 与 HDD 相比,NAND SSD 提供更好的密度、吞吐量和低功耗解决方案。
  • 基于 FIO 的工作负载表明,NVMe SSD 更适合用于 AI 和 ML 应用。
  • Solidigm 提供基于 TLC 和 QLC 的 NVMe SSD,专为 AI 和 ML 应用设计。
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-01-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 王知鱼 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 全文概览
    • 议程
    • AI 工作流的数据意识
    • 集群中的数据流动
    • FIO 测试数据
    • SSD 用在哪里?
    • 大容量 QLC 方案的优势
    • HDDs 与 QLC SSD 对比
    • Solidigm 存储产品族
    • 小结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档