为什么并行NFS v4.2(pNFS v4.2)是当今企业与AI/HPC场景中存储的理想选择?
企业如何通过元数据实现RPO/RTO要求?请查阅“Hammerspace利用元数据实现数据保护及RPO/RTO要求”
以及如何使用标准打造“第0层”极高性能存储?请查阅 “利用GPU服务器本地磁盘打造“第0层”受保护可流动存储,实现100倍Checkpoint性能提升”
1. 元数据和数据路径分离
所有供应商的传统NAS存储系统都存在致命的性能可扩展性瓶颈,因为元数据和数据都沿着相同的网络路径传输。
使用pNFS v4.2,元数据和数据路径是分开的,无需通过存储节点或控制器,允许客户端和存储卷之间直接读写数据,因此不会造成瓶颈。这减少了延迟并实现了几乎无限的线性可扩展性,因此pNFS v4.2系统可以扩展到数千个存储节点,而不会出现当今 “最好的” 横向扩展NAS系统中出现的性能下降。
图 1:并行NFS v4.2通过分离元数据控制平面实现线性扩展性,从而实现客户端和存储间的并行直接I/O
2. 已包含在所有Linux发行版中的智能客户端
pNFS v4.2客户端默认安装在所有Linux发行版中,它引入了元数据缓存的智能客户端。这大大减少了NFS、SMB和其他企业文件系统中客户端和服务器之间不断请求元数据或“闲聊”的开销。客户端和存储之间的pNFS v4.2预测反馈回路还使系统能够自动实时适应网络上可能发生的性能问题,从而提供传统NAS存储中从未有过的自我修复功能。由于pNFS v4.2客户端已包含在Linux内核中,因此企业IT人员无需更改现有应用服务器或用户权限。一切都基于标准,就像标准的企业NAS存储一样。
3. N-Connect功能
此功能打破了TCP/IP瓶颈,允许多个网络连接至单个存储节点。这意味着 I/O负载可以在多个网络接口上并行展开,同时仍使用普通以太网。这解决了传统基于TCP/IP的企业网络中仅支持单个连接的问题,从而限制了横向扩展性能。
4. 与现有硬件基础设施的兼容性
与需要特定于供应商的硬件的定制高性能存储解决方案不同,pNFS v4.2 与任何商品服务器和存储兼容,通过无处不在的NFS v3访问协议在任何现有存储组合中实现并行文件系统性能(见图 1)。数据直接在客户端和服务器之间路由,绕过控制器瓶颈,这使得pNFS v4.2与任何现有的企业存储平台兼容。这意味着组织可以升级其部分存储环境,以实现高性能并行文件系统性能,而无需彻底改造当前存储基础设施。
5. 带有Flex Files布局的pNFS v4.2
Flex Files意味着当pNFS v4.2客户端请求数据时,元数据服务器会提供实时布局或地图,以显示确切的文件位置,即使数据集可能分散在多个后端存储系统中。此功能利用了上述智能客户端。客户端收到布局后,即可将 I/O并行到多个路径,绕开存储控制器直接到达存储卷,从而减少延迟并显著提高性能。这种元数据驱动的性能提升有助于IT人员充分利用GPU集群,还可以实现作业间的无缝过渡,且不会中断。
6. 数据实时移动性
由于pNFS v4.2元数据控制平面与数据路径分离,因此pNFS v4.2可以在后台不同存储节点上创建文件,即使文件已打开并正在读取或写入。通过这种方式,可以在后台将数据暂存到各个存储层中,如NVMe存储层,以实现为GPU集群提供极致性能,即使是正在读写的文件,这种移动也不会中断用户或应用程序访问。
基于pNFS v4.2构建Hammerspace全局数据平台
Hammerspace在pNFS v4.2方面拥有独特的专业知识,多年来一直将其许多关键功能贡献给Linux社区。因此,Hammerspace全局数据平台软件被设计为与供应商无关的解决方案,以最大限度地兼容现有IT环境。而且Hammerspace的超大规模NAS架构是基于带有Flex Files的pNFS v4.2构建的,并作为标准功能包含在Hammerspace软件中。
除此之外,以下是Hammerspace全局数据平台软件中包含的一些关键功能,它们也应用了pNFS v4.2:
数据就地同化:此功能意味着Hammerspace可以快速整合来自任何现有存储上数据的元数据(NAS和对象存储),使用户能够立即访问文件,而无需等待数据迁移到新的存储平台。
《无需等待元数据提取完成便可立即访问》
并行全局文件系统:吸收现有存储元数据后,再由Hammerspace为用户提供高性能并行全局文件系统,该系统涵盖所有存储类型,可通过标准SMB、NFS和S3协议提供全局文件访问。通过这种方式,由Hammerspace提供支持的数据环境不仅可以在单个数据中心中桥接不兼容的存储孤岛,还可以创建一个全局命名空间,实现统一跨多个站点、云提供商和区域的高性能文件访问。
自动数据编排:Hammerspace包含一个强大的基于目标的策略引擎,该引擎利用多种元数据类型来触发数据放置、分层、迁移和保护,当然还有基于GPU计算的工作流配置。这种数据编排功能甚至可以利用自定义元数据作为变量来自动进行数据放置和移动,而不会造成中断,从而确保在后台无缝集成AI/DL工作流,而不会中断现有用户工作流,也无需将文件副本复制到其他存储中。
总之,带有Flex Files的pNFS v4.2为企业IT带来了AI/DL工作负载所需的 HPC级并行文件系统性能。通过这种方式,所有行业的企业都可以开始AI之旅,而无需对现有基础设施进行太多改动,也无需投入巨额资金和运营复杂性来构建新的AI专用高性能存储孤岛。
通过消除传统瓶颈并增强可扩展性和性能,甚至超越最好的企业横向扩展 NAS存储,带有Flex Files的pNFS v4.2提供了一种强大的基于标准的解决方案,为标准企业数据中心基础设施带来了HPC级性能。它支持通过标准协议进行全局文件访问,以满足任何规模的现代GPU密集型AI/DL应用程序的需求。