按:基于业务流全局视角来审视产品解决方案,是每一个Solution Architect要具备的能力!
Fig-1
AI数据处理管道,类似版本2024年初海外多个存储厂商都有曝露过,基本包含以下组成元素:
鹏弟认为:思得版本的创新点在于最底一行,进一步定性说明数据IO特征,指出各环节的读取特征,便于了解训练过程数据行为。
Fig-2
典型AI集群中的存储,包含以下3个组成部分:
Fig-3
在数据摄取环节,原始文件顺序写入到对象存储层中。
Note:基于对象存储训练方案供应商主要是MinIO,使用更多的可能是文件系统。
Fig-4
数据从对象存储层读取到缓存层,再由CPU做预处理(主要是大数据清洗过程,国内外很多软件公司在做这一层集成,提供 End-to-End 开箱即用式解决方案,如VAST)。
数据行为特征主要是以顺序读写。
Fig-5
训练过程,数据在GPU集群HBM/DRAM中,主要是随机读写。
Fig-6
Checkpoint机制是在训练深度学习模型时定期保存模型状态(参数、优化器状态等)的过程,以便于在中断或崩溃时恢复训练。其IO行为特征主要包括:
Fig-7
推理过程,图示数据存储在GPU集群中,主要是随机读;基于RAG的推理会产生额外IO行为。
Fig-8
训练完成的模型,从GPU内存,缓存到全闪存,最终落盘到对象存储层。
Fig-9
思得 根据数据生产流,推荐存储解决方案。
Fig-10
图片比较了基于TLC缓存+HDD对象存储层(黄底)和全QLC介质层存储方案,在节约机架和存储能耗上的差异:
基于全QLC介质方案,存储集群整体:
Note:PPT中存储方案前缀为NAS,这是文件存储的方案,旨在说明存储层从原对象存储过渡到文件存储。