按:鹏弟最近在学习国内JuiceFS产品文档,数据与元数据分离,构建统一命名空间设计,在软件定义存储领域并不算新事物,国内SDS厂商几乎都有自己统一存储方案。AI/新场景对海量文件的效率要求,使得并行文件系统备受关注。全局命名空间+并行文件系统是Hammerspace对当前AI场景的求解。
统一、自动化,并提供高性能的标准化访问,适用于任意站点、云端或存储系统中的非结构化数据。
新一轮数据周期已经到来。人工智能(AI)、GPU 计算、数据分析等数字化转型正在推动数据使用和保存方式的深刻变革。数据不再仅由人类消耗,而是以传统系统难以应对的速度被机器使用。
数据驱动型组织被以存储为中心的基础架构所拖累,这些基础架构将宝贵的非结构化数据困于存储孤岛中。
将数据传输到高性能本地计算集群、GPU 云、远程应用程序及分布式全局用户,并同时满足速度与效率的要求,仍然是一个挑战。数据复制缓慢会影响数据治理和安全性。传统存储系统难以提供无缝资源共享,而现有 IT 架构无法支持 AI 训练和分析所需的 GPU 集群。
消除数据孤岛并提供极致的并行性能,以实现任何站点、云和存储上的计算、应用和用户访问。
Hammerspace 全局数据平台将跨站点、云和任何存储的非结构化数据统一到一个单一、并行的全局文件系统中,并具有全局命名空间。它为高速数据处理提供了 HPC 级别的性能,并通过自动数据编排以无中断的方式自动化适当存储层、云区域或云服务中的数据放置。
这消除了数据孤岛,使无论位于何处的计算集群、应用程序和用户都可以即时访问数据资源。
数据在AI管道中,从性能、成本等多角度考虑,需要在不同介质环境流转,容易造成数据的迁移和复制,基于全局文件系统(图中间层),可避免数据冗余复制,降低存储成本且提高效率。
大模型训练场景的存储架构
Blue Origin[2](由杰夫·贝索斯创立的航空航天公司)与 Hammerspace 合作,旨在简化其多种存储环境中的数据管理。Blue Origin 运营着多个本地存储和云端基础设施,Hammerspace 的平台帮助其在这些不同位置之间统一数据,提供无缝的数据访问。这种整合支持了 Blue Origin 的多个关键业务流程,包括工业设计、制造、实时测试反馈和市场营销。
借助 Hammerspace,Blue Origin 的团队能够通过单一的全局数据视图高效访问文件,即使数据分布在不同的物理位置也不会受到影响。这减少了延迟和数据流动中的瓶颈,提高了团队协作和运营效率。
Jellyfish Pictures[3]是一家总部位于英国的视觉特效(VFX)和动画公司,成立于2001年。它已经发展成为一个全球知名的工作室,提供针对电影、电视剧、广告和儿童内容的服务。该工作室因参与多部重要作品而受到赞誉,包括《星球大战》系列电影(《游侠索罗》、《最后的绝地武士》和《侠盗一号》)、HBO的《守望者》、Netflix的《黑镜》等多部需要大量视觉特效的电视剧。
[1]
Hammerspace: https://hammerspace.com/
[2]
Blue Origin: https://www.blueorigin.com/zh-CN
[3]
Jellyfish Pictures: https://jellyfishpictures.com/