前往小程序,Get更优阅读体验!
立即前往
发布
社区首页 >专栏 >Solidigm:AI数据管道与存储方案

Solidigm:AI数据管道与存储方案

作者头像
数据存储前沿技术
发布2025-02-11 17:24:48
发布2025-02-11 17:24:48
860
举报

按:基于业务流全局视角来审视产品解决方案,是每一个Solution Architect要具备的能力!

Fig-1

AI数据处理管道,类似版本2024年初海外多个存储厂商都有曝露过,基本包含以下组成元素:

  • • 数据管道流程:数据摄取--准备(预训练)--LLM训练--微调/RAG/推理
  • • LLM训练过程:Checkpoint的保存与读取,模型优化
  • • 数据体量:伴随整个管道流程,各环节数据容量

鹏弟认为:思得版本的创新点在于最底一行,进一步定性说明数据IO特征,指出各环节的读取特征,便于了解训练过程数据行为。

Fig-2

典型AI集群中的存储,包含以下3个组成部分:

  1. 1. GPU服务器-直连存储
    • • 有限存储(通常为8个U.2插槽)
  2. 2. 全闪存性能层
    • • 包含快速存储设备的服务器(目前通常是TLC NAND),用于弥补HDD性能不足
  3. 3. 对象存储层
    • • 存储服务器或JBOD,包含大量存储设备(目前通常是HDD)

Fig-3

在数据摄取环节,原始文件顺序写入到对象存储层中。

Note:基于对象存储训练方案供应商主要是MinIO,使用更多的可能是文件系统。

Fig-4

数据从对象存储层读取到缓存层,再由CPU做预处理(主要是大数据清洗过程,国内外很多软件公司在做这一层集成,提供 End-to-End 开箱即用式解决方案,如VAST)。

数据行为特征主要是以顺序读写。

Fig-5

训练过程,数据在GPU集群HBM/DRAM中,主要是随机读写。

Fig-6

Checkpoint机制是在训练深度学习模型时定期保存模型状态(参数、优化器状态等)的过程,以便于在中断或崩溃时恢复训练。其IO行为特征主要包括:

  1. 1. 频繁IO操作:Checkpoint通常在每个epoch或设定的间隔保存,导致频繁的磁盘读写操作。
  2. 2. 大文件写入:模型参数文件通常较大,写入过程可能会造成IO瓶颈(需要较高的写入性能),影响训练速度。

Fig-7

推理过程,图示数据存储在GPU集群中,主要是随机读;基于RAG的推理会产生额外IO行为。

Fig-8

训练完成的模型,从GPU内存,缓存到全闪存,最终落盘到对象存储层。

Fig-9

思得 根据数据生产流,推荐存储解决方案。

  • • 在数据摄取和归档阶段(对象存储层),主要关注容量,对性能要求不明显,建议选型 基于QLC闪存介质的 P5336;
  • • GPU直连存储或缓存层,关注存储读取性能,容量要求减少,建议选型基于TLC的P5520和基于QLC的P5430,QLC容量占优势,但读性能相对缩水。

Fig-10

图片比较了基于TLC缓存+HDD对象存储层(黄底)和全QLC介质层存储方案,在节约机架和存储能耗上的差异:

基于全QLC介质方案,存储集群整体:

  • • 使用机架,减少到原1/4;
  • • 能耗降低80%;
  • • 空间利用率提高50%;

Note:PPT中存储方案前缀为NAS,这是文件存储的方案,旨在说明存储层从原对象存储过渡到文件存储。

小结

  • • 认识AI数据流管道,不同环节数据体量和相应读写IO特征(Fig-1);
  • • 企业AI生产基础设施的存储堆栈特征(Fig-2);
  • • 思得基于QLC闪存的AI生产解决方案及其核心优势(Fig-9/10)
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-09-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 王知鱼 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 小结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档