文章探讨人工智能和机器学习(AI/ML)数据管道中的存储解决方案,强调了固态硬盘(SSD)尤其是NVMe SSD在不同阶段的应用价值。
首先,概述了AI/ML数据处理流程的关键步骤,包括数据的输入、准备、训练、检查点保存、推理以及归档验证等。接着,详细比较了FIO基于工作负载下,不同类型的存储设备(如HDD与NVMe SSD)在数据读写上的性能差异,显示NVMe SSD在AI和ML应用中展现出更好的性能和适应性。
文中进一步讨论了在AI集群环境中,数据如何在不同的计算节点之间高效移动,涉及数据的多个处理阶段。特别提到了使用不同级别的存储层次(如NAND cache、对象存储层和所有闪存高性能层),以优化数据访问速度和降低能耗。此外,文中还讨论了QLC技术如何在不牺牲性能的前提下,提供更高的存储密度和更低的成本,这对于大规模AI部署尤为重要。
文章为工程师和架构师提供了一个关于如何有效利用现代存储技术来支持AI应用发展的深入视角。
Note
鹏弟9月末曾整理过一篇 Solidigm 发布的存储产品材料,与本文较类似,差异点在于本文对AI工作流基于IO特征进行了FIO 测试,数据更加详实,同时对 Solidigm 产品的报道做了更新。
关注以下重点:
Note
在一张图里将集群节点、存储介质分层、数据IO特征,都标注出来,值得参考和借鉴!只有真问题意识才能导向清晰、明朗的结论!
FIO 测试方法
FIO(Flexible I/O Tester)是一种广泛用于测试存储设备性能的工具,它通过模拟不同类型的工作负载来评估硬盘、固态硬盘以及存储系统的性能。在这张表中,基于 FIO 的性能分析是通过执行不同的读写操作类型来测量存储设备在 AI/ML 工作负载中的表现。具体来说,FIO 会在不同的条件下运行以下类型的测试:
FIO 会记录这些操作在不同 SSD 和硬盘上的吞吐量(GB/s)以及响应时间等性能指标。通过对比不同存储介质(如 HDD、PCIe Gen4 和 PCIe Gen5 SSD)在这些工作负载下的表现,可以得出各个存储设备在 AI/ML 任务中的相对性能。这些数据帮助评估不同存储方案在 AI/ML 场景中的适用性。
从测试对象来看,主要比较 HDD 与几种不同 SSD 产品(Solidigm P5336、P5520、PS1010)在不同场景的带宽性能。
值得留意的是HDD的存储性能数据,考虑到云化环境下80%的数据是存储在HDDs上的,企业对基础设施的投入成本敏感,短时间内很难贸然大批量更换。
同为容量型的 P5336 单盘提供30TB(高于 HDD的 24TB),容量更大的同时,各种工作负载下的IO带宽更是大幅高出HDDs。
区分 两种业务场景:
Cloud(云端): 左图
On-Prem(本地): 右图
Note
NVMe SSD 主要还是面向热数据的存储方案,需要将经常访问的高频数据驻留在离计算节点更近的位置,除了介质上的配置方案之外,还可以基于缓存算法来提高效率,这一领域 Alluxio 可能是一个备选方案。
当前:TLC + HDD 数据管道(左图)
QLC:统一的高密度数据管道 (右图)
优势:系统带宽得到显著提升,同时占地面积和功耗也得到优化。此外,QLC 提供了更高存储密度,使得更多 GPU 服务器可以在相同空间内运行。
QLC SSD 在容量、性能、可靠性和功率效率方面相对于传统 HDD 提供了显著的优势。QLC SSD 不仅可以提供更大的存储容量和更高的性能,还在可靠性和能效方面表现出色。它们为 AI 数据处理提供了更高效、更可靠的存储解决方案,同时节省了电力和机架空间。
Note
唯一缺少的、也是最关键的,建设成本!短期来看QLC SSD 场景落地最大的问题还是 单位成本较 HDDs 高太多,且不论软件和系统应用生态的挑战。
图展示了在不同 AI 数据存储阶段(如数据导入、准备、训练等)所需的存储性能要求,并根据每个阶段的具体需求推荐了不同的 Solidigm SSD 产品。
Note
多么清晰的产品介绍!虽然没有严谨的具体数据,但通过矩阵和图标,清晰传递了产品的差异和选型建议,值得市场营销同业学习!
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有