Note
过去两年,业界对AI 训练场景异常关注,随着热度不断降低,重新回顾AI整个数据生产流,前端的数据处理平台作为训练的数据源,其处理效率和准确性是后向操作的关键,应该更加关注大数据平台的长期建设和维护。
左图示意,数据湖 -- 数据仓库的演化路径
数据存储类型:
底层的存储设备:大容量 SSDs、HDDs。
对数据处理环境业务特征的总结:
Note
随着非结构化数据分类、检索的需求不断增强,对象存储将在数据加工的平台建设中,发挥更积极的作用。
Note
训练场景可能还是以并行文件系统为主,更关注高并发的随机读写能力。
Note
George 在 DaaS 节目里对RAG在企业数据系统的集成形态,曾有过精妙的评论,企业数据智能的落地,可能得非常依靠外部向量数据库,这个场景是SSD来做,还是基于CXL-DRAM来实现,可能仍需时间来检验。
Note
随着场景对性能和容量的双重要求,基于PCIe接口的NVMe-SSDs, 在数据中心的广泛应用,将是不争的事实。