Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >XINNOR:高效RAID的存储实践

XINNOR:高效RAID的存储实践

作者头像
数据存储前沿技术
发布于 2025-02-11 10:14:42
发布于 2025-02-11 10:14:42
1860
举报

按:存储介质快速创新,催生RAID硬件加速变革以提供更高读写效率。众所周知本地存储读写效率是最高,但可扩展性容易受到诟病,xiRAID创新RAID算法+IB低延迟网络,能实现90%以上本地存储读写效率,同时获得网络存储可扩展性,这对高端应用场景是极具吸引力的。

XINNOR:高效RAID存储实践-Fig-1

云端AI工作负载对存储系统的关键需求:

1. 虚拟化能力:支持多租户环境和多种文件系统,以适应不同AI应用的需求。

2. 高性能:每个租户需要至少10 GB/s的带宽和10万以上的IOPS,以满足AI工作负载的密集数据处理需求。

3. 数据弹性:确保数据的可靠性和可用性,这对于长时间运行的AI任务至关重要。

4. 低CPU消耗:优化存储操作以减少对计算资源的占用,将更多资源留给AI处理任务。

5. 分解可组合存储:允许灵活配置和扩展存储资源,以适应不同规模和类型的AI工作负载。

XINNOR:高效RAID存储实践-Fig-2

AI训练过程实测GPU使用率和IO读写带宽,材料显示:

  • • 测试数据训练过程持续10分钟左右,GPU饱和利用;
  • • 检查点(Checkpoint)写入阶段,GPU低利用率,IO写带宽达到75GB/s

项目细节,参考阅读:

XINNOR:高效RAID存储实践-Fig-3

xiRAID 产品介绍

xiRAID Classic

xiRAID Opus(用户空间优化性能)

在Linux内核中运行

在用户空间运行,独立于内核

适用于本地RAID

适用于网络设备或虚拟化

导出Linux块设备

可通过virtIO、NVMeoRDMA、NVMeoTCP操作

支持所有RAID级别、重建等更多功能

额外内置功能如NVMe发起器、基于TCP/RDMA的NVMe、iSCSI目标和Vhost控制器

通过CLI管理

分布式CLI用于管理多个服务器

使用所有可用CPU核心的一小部分,均匀分配负载

完全占用特定的专用CPU核心

仅支持x86 CPU

支持x86和ARM架构(DPU)

XINNOR:高效RAID存储实践-Fig-4

xiSTORE Cloud是一个结合了xiRAID Opus和虚拟化文件服务器的高性能云存储解决方案。

其主要特点和优势包括:

1. 灵活的文件系统部署:允许每个租户部署自己的文件系统,如PFS(LustreGFS)或NFS,提高了系统的灵活性和多租户支持。

2. 卓越的性能

• 使用xiRAID Opus和VHOST可实现单虚拟卷8.3M IOPs的高性能。

• 相比之下,传统Linux内核块设备与VHOST的组合最高只能达到250K IOPs。

3. 轻量级和可扩展:

• 可以从单个服务器节点开始部署,便于快速启动和灵活扩展。

• 单CPU核心可实现高达177/30 GB/s的全条带读写吞吐量,展现了优秀的资源利用效率。

4. DPU就绪:架构设计支持数据处理单元(DPU),无需牺牲性能,为未来的硬件升级做好准备。

5. 高效架构:通过虚拟化和分散的NVMe驱动器,实现了存储资源的高效利用和管理。

XINNOR:高效RAID存储实践-Fig-5

xiSTORE 是面向 HPC 和 AI 市场的软件定义存储 (SDS) 解决方案,基于速度最快、最可靠的 RAID 引擎 xiRAID,结合 Lustre FS 集群文件系统和通用硬件,提供高效、灵活、可扩展的存储基础架构。

Note:关于xiSTORE产品及性能介绍,材料已收集,待下次分析。

XINNOR:高效RAID存储实践-Fig-6

分布式跨节点EC

xiRAID Opus可以作为分布式纠删码部署在多个服务器上。

每个RAID组可以通过使用来自每个服务器节点的一个或多个驱动器来创建,从而构建一个弹性存储解决方案,不仅能够承受多个驱动器故障,还能承受多个节点故障。

关于分布式纠删码

分布式纠删码方案是一种先进的数据冗余和保护技术,特别适用于大规模分布式存储系统。与本地纠删码相比,它具有以下优势和潜在缺点:

优势

1. 更高的可用性:分布式纠删码可以跨多个物理节点或地理位置分散数据和校验信息,大大提高了系统的容错能力。即使整个节点或数据中心发生故障,数据仍然可以恢复。

2. 更好的可扩展性:分布式系统允许通过添加新的节点来轻松扩展存储容量,而不需要重新平衡整个系统的数据。

3. 更高效的存储利用:相比于传统的复制方法,分布式纠删码可以在提供相同或更高数据可靠性的同时,显著减少存储空间的使用。

缺点

1. 复杂性增加:分布式系统的设计、实现和维护比本地系统更复杂,需要考虑网络延迟、一致性等问题。

2. 写入性能开销:数据需要在多个节点之间传输和编码,可能导致写入操作的延迟增加。

3. 网络带宽消耗:数据在节点之间的传输会消耗大量网络带宽,特别是在执行恢复操作时。

4. 元数据管理挑战:跟踪分布在多个节点上的数据块和校验块需要更复杂的元数据管理系统。

XINNOR:高效RAID存储实践-Fig-7

xiRAID Opus与BlueFiled3集成的实现方案及其优势

1. 实现(Implementation):

• 网络驱动器通过BF3网络200Gbps端口可见

• xiRAID Opus在BF3 DPU中实现RAID功能

• RAID通过SNAP向主机暴露

2. 优势(Advantages):

• 无服务器存储实现:零CPU消耗

• 解聚:通过SNAP可以"即时"改变存储容量

• 安全性:无需安装专门的软件或硬件

XINNOR:高效RAID存储实践-Fig-8

测试配置:

  • • 驱动器:6x Samsung PM9A3 3.84TB NVMe
  • • 连接方式:nvme-rdma驱动程序,IB端口200Gbit/s
  • • 工作负载运行环境:BlueField3(Fio插件SPDK模式)

性能数据表:

配置

顺序写入(GB/s)

顺序读取(GB/s)

随机写入(K IOPS)

随机读取(K IOPS)

原始驱动器

16

24

2,064

4,080

xiRAID, RAID5

11

24

447

2,351

xiRAID, RAID6

8.2

24

328

2,352

要点总结:

1. xiRAID在BlueField3上实现了高性能RAID功能

2. RAID5和RAID6配置都达到了理论性能的60-100%

• 原始驱动器、RAID5和RAID6的顺序读取性能都是24GB/s。

• 这意味着在顺序读取方面,RAID配置达到了100%的理论性能

• RAID5: 11GB/s,相比原始驱动器的16GB/s,达到了约68.75%。

• RAID6: 8.2GB/s,相比原始驱动器的16GB/s,达到了约51.25%。

3. 顺序读取性能在所有配置中保持一致

4. RAID配置对随机写入性能影响较大

5. RAID6相比RAID5在写入性能上有所降低,但读取性能相当

总结:xiRAID 云存储解决方案

XINNOR:高效RAID存储实践-Fig-9

  1. 1. 本地RAID块设备 + 虚拟化文件服务器(GA,已有客户实践)
  2. 2. 分布式纠删码(开发中)
  3. 3. DPU RAID卸载(子版本发布)

代表了云存储技术的不同发展阶段和关注点:

  1. 1. 从本地高性能存储
  2. 2. 到分布式高可用存储
  3. 3. 再到资源高效利用的无服务器存储
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-10-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 王知鱼 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档