非结构化数据编排,即从多个存储孤岛中获取数据(文件和对象),将这些数据整合到可跨越站点和云的全局命名空间中,使数据根据业务需求在该空间中流动的过程。
当今客户使用数据编排的示例包括:
Hammerspace数据编排功能解决了IT基础设施团队的关键挑战,例如通过消除数据复制蔓延来简化数据治理,通过自动化流程来释放IT资源,并使IT团队能够充分利用云的弹性计算和存储资源。
分解非结构化数据编排
Hammerspace数据编排功能基于下图所示的简单框架
《Hammerspace数据编排功能框架》
本文主要描述消除数据孤岛,以及如何将数据整合到我们的全局数据平台中。因为在编排数据之前,我们需要将数据纳入我们的文件系统。方法如下...
消除数据孤岛,通过Hammerspace就地提取整合您分散的非结构化数据
企业人工智能项目面临的最大挑战之一就是数据孤岛。人工智能模型需要访问庞大的数据集用于训练,并越来越多地作为检索增强生成(RAG)管道的一部分进行推理。总的来说,随着基础设施现代化和平台整合等IT计划,一个大挑战是将遗留的大型数据集转移到新的存储平台中。
Hammerspace通过就地提取数据来解决这些挑战。这是从现有存储系统导入元数据的过程,由于元数据很小,文件和对象在几分钟内即可被用户看到和访问,而且它以对用户不破坏的方式实现。
《整合来自任何NAS或对象存储的现有数据》
Hammerspace可以“吸收”来自所有NAS存储系统的数据,还可以“吸收”来自80多个对象存储和云存储的数据,包括Amazon S3、Azure Blob Storage等。事实上,我们最近使用了非常流行的Rclone工具,为客户提供了更多选择,以极快的速度从这些云数据源中提取大量数据。
先提取数据,然后开始编排
一旦元数据被提取到Hammerspace元数据层中,我们可以将该元数据复制到Hammerspace全局数据平台某一部分的任何站点和任何云,创建一个跨越站点、云和任意存储的全局命名空间。
《创建跨越站点、云和任意存储的全局命名空间》
以上就是我们如何将存储孤岛中的非结构化数据转化为全局(全球)共享、可立即访问的资源。