前往小程序,Get更优阅读体验!
立即前往
发布
社区首页 >专栏 >Marvell:数据管道与高性能SSD

Marvell:数据管道与高性能SSD

作者头像
数据存储前沿技术
发布2025-02-11 19:25:22
发布2025-02-11 19:25:22
890
举报

要点概览

  • 回顾AL负载的数据管道和对存储资源的要求
  • AI基础设施的演化方向,更先进、更解耦
  • 先进SSDs 主控优化和PCIe接口参数
  • 存储设备(如SSD和HDD)在AI工作负载数据处理训练推理阶段起着至关重要的作用。
  • 数据通过数据湖数据仓库进行管理,并在推理阶段进行语义检索增强生成操作。
  • 高速存储接口(如PCI Express 6.0)和高容量存储设备(SSD)用于支持AI的高效数据传输与处理。

Note

过去两年,业界对AI 训练场景异常关注,随着热度不断降低,重新回顾AI整个数据生产流,前端的数据处理平台作为训练的数据源,其处理效率和准确性是后向操作的关键,应该更加关注大数据平台的长期建设和维护。

数据处理环节

左图示意,数据湖 -- 数据仓库的演化路径

数据存储类型

  • 数据湖:原始用户输入和系统数据。
  • 数据仓库:
    • 数据库(RDBMS,向量)
    • 文件(CSV、Parquet)
    • 知识图谱

底层的存储设备:大容量 SSDs、HDDs。

对数据处理环境业务特征的总结:

  • 主导AI/ML开发生命周期
  • 输入数据的准确性对模型性能有重大影响
  • 大规模数据集存储位置
    • 数据湖(非结构化数据)
    • 数据库、CSV、Parquet、JSON(结构化数据)
  • 读写特性
    • 高频读取,写入负载较重

Note

随着非结构化数据分类、检索的需求不断增强,对象存储将在数据加工的平台建设中,发挥更积极的作用。


训练场景特征和存储行为

  • AI模型训练过程中,快速数据检索定期检查点是关键,旨在减少GPU空闲时间和提升可观察性。
  • 训练过程中的混合读写突发写入对存储设备的性能提出了高要求,特别是需要高带宽和低延迟的SSDPCI Express 6.0接口。

Note

训练场景可能还是以并行文件系统为主,更关注高并发的随机读写能力。


推理/RAG

  • RAG(检索增强生成)通过外部数据检索增强LLM的推理能力,特别适用于Chatbot查询和语义搜索任务。
  • 由于任务是I/O密集型,需要高性能存储(如SSD)和高速数据接口(PCI Express 6.0)来支持数据的快速读取与处理。
  • 大容量向量存储是实现大规模RAG任务的核心需求之一。

Note

George 在 DaaS 节目里对RAG在企业数据系统的集成形态,曾有过精妙的评论,企业数据智能的落地,可能得非常依靠外部向量数据库,这个场景是SSD来做,还是基于CXL-DRAM来实现,可能仍需时间来检验。


AI 基础设施的演化方向

  • AI基础设施从紧耦合发展到分离存储,最终实现全面分离,以支持超大规模生产。
  • 高性能SSD网络优化是AI基础设施演进过程中关键的存储与性能支持。
  • AI/ML开发阶段的不同需求会直接影响存储和网络的设计与部署。

AI数据生命周期对SSD主控的挑战

  • 闪存控制器设计需满足AI/ML工作负载,提供高速数据传输与低延迟响应。
  • 系统基础架构NAND特性的分布式优化设计,进一步提升了系统的容量、性能与可靠性。
  • 控制器的关键特性包括:协议支持PCIe通道管理计算卸载硬件加速等,支撑AI/ML应用的高性能需求。

更先进的SSDs (Marvell)

  • PCIe从3.06.0代际,数据传输速度、NAND性能和SSD容量显著提升。
  • PCIe 6.0提供28 GBps的传输速度、4800 MT/s的NAND性能和256TB的SSD容量,满足AI工作负载对性能、容量和可靠性的严苛要求。
  • LDPC纠错技术不断升级(从LDPCLDPC+++),进一步提升数据传输的可靠性。

Note

随着场景对性能和容量的双重要求,基于PCIe接口的NVMe-SSDs, 在数据中心的广泛应用,将是不争的事实。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-12-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 王知鱼 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 要点概览
    • 数据处理环节
    • 训练场景特征和存储行为
    • 推理/RAG
    • AI 基础设施的演化方向
    • AI数据生命周期对SSD主控的挑战
    • 更先进的SSDs (Marvell)
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档