前往小程序,Get更优阅读体验!
立即前往
发布
社区首页 >专栏 >Hammerspace:全局并行文件系统架构案例

Hammerspace:全局并行文件系统架构案例

作者头像
数据存储前沿技术
发布2025-02-11 18:29:01
发布2025-02-11 18:29:01
1360
举报

按:鹏弟最近在学习国内JuiceFS产品文档,数据与元数据分离,构建统一命名空间设计,在软件定义存储领域并不算新事物,国内SDS厂商几乎都有自己统一存储方案。AI/新场景对海量文件的效率要求,使得并行文件系统备受关注。全局命名空间+并行文件系统是Hammerspace对当前AI场景的求解。

Global Data Platform

Hammerspace[1] 全局数据平台

统一、自动化,并提供高性能的标准化访问,适用于任意站点、云端或存储系统中的非结构化数据。

问题意识:数据孤岛

新一轮数据周期已经到来。人工智能(AI)、GPU 计算、数据分析等数字化转型正在推动数据使用和保存方式的深刻变革。数据不再仅由人类消耗,而是以传统系统难以应对的速度被机器使用。

数据驱动型组织被以存储为中心的基础架构所拖累,这些基础架构将宝贵的非结构化数据困于存储孤岛中。

将数据传输到高性能本地计算集群、GPU 云、远程应用程序及分布式全局用户,并同时满足速度与效率的要求,仍然是一个挑战。数据复制缓慢会影响数据治理和安全性。传统存储系统难以提供无缝资源共享,而现有 IT 架构无法支持 AI 训练和分析所需的 GPU 集群。

核心架构:数据为中心的架构

消除数据孤岛并提供极致的并行性能,以实现任何站点、云和存储上的计算、应用和用户访问。

Hammerspace 全局数据平台将跨站点、云和任何存储的非结构化数据统一到一个单一、并行的全局文件系统中,并具有全局命名空间。它为高速数据处理提供了 HPC 级别的性能,并通过自动数据编排以无中断的方式自动化适当存储层、云区域或云服务中的数据放置。

这消除了数据孤岛,使无论位于何处的计算集群、应用程序和用户都可以即时访问数据资源。

  • • 真正的全局化、基于标准的并行文件系统:跨越多个站点和多云环境,呈现单个全局命名空间。在所有主要供应商的新旧存储设备上存储数据。
  • • 高性能计算(HPC)与企业级NAS的简单性结合:超大规模NAS架构结合了高性能计算文件系统的优点和基于标准的NFS,加速AI数据管道和GPU计算。
  • • 将现有非结构化数据整合成单一数据集:使用就地同化技术,让用户能够立即访问现有的数据。文件可以在几分钟内对用户可见。
  • • 不影响业务的多站点数据编排:自动化数据放置和保护,让使用者、应用程序和计算群集能快速存取全局资料。
  • • 基于目标的数据策略和可编程元数据:通过GUI、API或CLI定义控制数据放置和保护的自然语言策略。
  • • 高级跨平台数据服务:简化跨站点、云和存储系统的数据安全和治理的数据存储和保护服务。

架构特性

企业数据服务

案例研究

AI 数据管道

数据在AI管道中,从性能、成本等多角度考虑,需要在不同介质环境流转,容易造成数据的迁移和复制,基于全局文件系统(图中间层),可避免数据冗余复制,降低存储成本且提高效率。

大模型训练场景的存储架构

  • • 基于 Hammerspace 构建数据存储和元数据分离的高性能存储集群,元数据基于 pNFS v4.2 ,数据存储基于NFS v3。
  • • 1000台存储节点(42PB可用,单节点42TB),存储集群带宽能到12.5TB/s

其他

Blue Origin

Blue Origin[2](由杰夫·贝索斯创立的航空航天公司)与 Hammerspace 合作,旨在简化其多种存储环境中的数据管理。Blue Origin 运营着多个本地存储云端基础设施,Hammerspace 的平台帮助其在这些不同位置之间统一数据,提供无缝的数据访问。这种整合支持了 Blue Origin 的多个关键业务流程,包括工业设计、制造、实时测试反馈市场营销

借助 Hammerspace,Blue Origin 的团队能够通过单一的全局数据视图高效访问文件,即使数据分布在不同的物理位置也不会受到影响。这减少了延迟和数据流动中的瓶颈,提高了团队协作和运营效率。

Jellyfish Pictures

Jellyfish Pictures[3]是一家总部位于英国的视觉特效(VFX)和动画公司,成立于2001年。它已经发展成为一个全球知名的工作室,提供针对电影、电视剧、广告和儿童内容的服务。该工作室因参与多部重要作品而受到赞誉,包括《星球大战》系列电影(《游侠索罗》、《最后的绝地武士》和《侠盗一号》)、HBO的《守望者》、Netflix的《黑镜》等多部需要大量视觉特效的电视剧。

  • • 降低渲染生产成本
  • • 消除文件复制和手动文件编排
  • • 充分利用分布式基础设施优势,就近接入本地资源、人才
引用链接

[1] Hammerspace: https://hammerspace.com/ [2] Blue Origin: https://www.blueorigin.com/zh-CN [3] Jellyfish Pictures: https://jellyfishpictures.com/

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-10-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 王知鱼 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Global Data Platform
    • Hammerspace[1] 全局数据平台
    • 问题意识:数据孤岛
    • 核心架构:数据为中心的架构
    • 架构特性
    • 企业数据服务
  • 案例研究
    • AI 数据管道
    • 其他
    • Blue Origin
    • Jellyfish Pictures
      • 引用链接
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档