前往小程序,Get更优阅读体验!
立即前往
发布
社区首页 >专栏 >XINNOR:RAID创新驱动云存储提效

XINNOR:RAID创新驱动云存储提效

作者头像
数据存储前沿技术
发布2025-02-11 18:15:47
发布2025-02-11 18:15:47
780
举报

按:本文是XINNOR团队主要负责人,23年11月底在线上做的一次产品宣讲[1],鹏弟本想把原视频拉取下来,有感主要技术负责人口语很难听懂,负担较大,文末附油管链接,感兴趣可自行跳转,了解一手信息。

XiNNOR 公司介绍

Fig-1

关于 XINNR[2]

  • • 成立于以色列Haifa,2022年5月
  • • 背景:拥有超过10年的软件RAID设计和数学研究经验
  • • 使命:成为最快的RAID引擎
  • • 团队:大约40人;其中30多人是数学家和来自全球存储OEM厂商的行业人才
  • • 超过25个全球销售合作伙伴
  • • 超过100PB的终端客户数据

xiRAID 与 xiSTORE 介绍

Fig-2

核心产品

  • xiRAID
  • • 最快且最可靠的NVMe软件RAID
  • • 示意图展示了应用程序通过CPU的多个核心处理数据,每个核心处理150 GB/s的数据流,并通过7 GB/s的速度传输到多个SSD。
  • • 特性包括:无内存缓存、核心负载均衡、无阻塞
  • xiSTORE
  • • 针对HPC(高性能计算)和AI工作负载的SDS(软件定义存储)解决方案,支持HDD和SSD基础设施。
  • • 示意图展示了一个基于Lustre网络的存储系统结构,其中包含多个存储节点和管理节点,支持HDD和SSD混合的存储设备。

Fig-3

xiSTORE 关键要素

1. xiRAID fr NVMe:市场上最快的软件RAID。

2. Declustered RAID fr HDD:通过预计算循环矩阵,提供最低驱动器重建时间和最大并行性。

3. High Availability(高可用性):该解决方案由双控制器构建块组成,工作于高可用集群中,以消除单点故障。

4. VM Management(虚拟机管理):具备运行虚拟机的能力,包括高可用性机制,增加系统灵活性并降低维护成本。

5. Lustre FS:基于分布式、对象存储的可扩展计算机网络存储平台。

Fig-4

xiSTORE 高级架构

  • • xiSTORE由构建块组成。
  • • 每个构建块都是双控制器架构(双活提高可用性)。
  • • 每个构建块可以包含HDD或闪存驱动器。
  • • HDD和NVMe构建块可以一起使用。

图片底部展示了多个构建块系统的架构图,每个构建块都由共享驱动器和Lustre客户端连接管理,形成一个完整的存储系统。

HDD 存储集群配置及实测数据

Fig-5

构建块推荐的HDD配置

  • • 一台虚拟机配有2个Lustre ST和1个Jurnal。
  • • 驱动子系统配置:

2个JBODs(每个JBOD至少包含86个驱动器);

4个DCR RAID 60配置,共42个HDD(8d+2p每组)用于Lustre OST(数据盘);

4个RAID 1(1d+1d)配置,使用SAS SSD作为Lustre Jurnal。

  • • Lustre FS配置:

4个Lustre FS SS;

4个Lustre FS Jurnal。

右侧的图表展示了每个控制器的虚拟机和RAID引擎配置,并通过Lustre网络连接到多个JBD系统。

DCR(Declustered RAID)是一种改进型RAID方法,它将数据和校验分布在更多驱动器上,缩短了重建时间并提高了并行性能。 RAID 60是一种基于RAID 6的更高级别的RAID组合。RAID 6本身在每个磁盘阵列中包含两个校验盘(parity disks),允许最多两个磁盘同时发生故障而不丢失数据。RAID 60将多个RAID 6阵列组合在一起,通过在不同RAID 6组之间进行数据条带化(striping)来进一步提高性能和冗余。 8d+2p 8d 表示该RAID 6组中有8个数据盘(data disks),2p表示有2个校验盘(parity disks)。这意味着每组RAID 6阵列使用10个磁盘,其中8个用于存储数据,2个用于存储校验信息,从而提供数据冗余和容错能力。

Fig-6

HDD构建块配置

  • 2台服务器配置:

主板: ASRckRack MBD-EPYCR2ME/128

处理器: 1个 AMD EPYC 7763 64核处理器

内存: 总共192GB(6 x 32GB 36ASF4G72PZ-3G2E2)

InfiniBand网络: 1个 Mellanx Technlgies MT28908(CnnectX-6)

SAS HBA: 2个 Bradcm / LSI 9500-16e Tri-mde HBA

两台服务器共享的驱动子系统: 2个 WD Data 102 (HGST H4102-J),总共204个8TB HUS728T8TA LS204(测试中只使用了168个)。

关于 Tri-Mde HBA Tri-mde HBA(Hst Bus Adapter)是一种能够支持三种不同类型存储设备连接的主机总线适配器。它可以连接SAS(Serial Attached SCSI)、SATA(Serial ATA)、以及NVMe(Nn-Vlatile Memry Express)设备,因此被称为“Tri-mde”。

Fig-7

HDD构建块性能

单个构建块性能

IR写入性能:21 GB/s IR读取性能:21 GB/s FI性能:27 GB/s

单个机架性能

IR写入性能:60 GB/s IR读取性能:60 GB/s

NVMe 存储集群配置及实测数据

Fig-8

构建块推荐的NVMe配置

  • SBB SS平台:包含20到24个NVMe驱动器。
  • SBB SS+MDS平台:20+2或20+4个NVMe驱动器。

驱动子系统

  • • 每个NVMe驱动器被分为两个命名空间,并通过2条PCIe通道连接到控制器(总共40/48个块设备)。
  • • 4个RAID 6(8d+2p)或4个RAID 5(11d+1p)。

Lustre文件系统配置

  • • 4个Lustre FS SS。

Fig-9

基于AMD的NVMe构建块配置

平台:Viking Enterprise Slutins (VES) VSS2249R 存储服务器

CPU:每个节点配备AMD EPYC 7702P 64核处理器

内存:每个节点256 GB RAM

网络:每个节点配备2个MT28908家族(CnnectX-6)网络接口

硬盘:每个节点配备24个KIXIA CM6-R 3.84TB的驱动器,1.6TB的命名空间

软件配置:使用xiSTRE软件及Lustre 2.15.2版本

RAID配置:4组RAID 5,每组12个驱动器(11个数据盘+1个校验盘),SSD块大小为64k。

Fig-10

基于AMD的NVMe构建块性能

  • 单个构建块性能

IOR写入性能:79.2 GB/s

IOR读取性能:81.2 GB/s

IOR降级读取性能:76.6 GB/s

  • 单个机架性能(1个MDS双节点+18个OSS双节点)

IOR写入性能:1.4 TB/s

IOR读取性能:1.5 TB/s

IOR降级读取性能:1.3 TB/s

Note:NVME-SSD 的测试数据,Rack是Block的20倍

IOR降级(IOR degradation)通常指的是在存储系统或存储介质的性能下降,尤其是在读取操作时。这个现象可能由多种因素引起,包括:

  • 介质老化:随着时间的推移,存储介质(如SSD、HDD)的性能可能会下降。
  • 碎片化:数据的分散存储可能导致读取效率降低。
  • 负载过高:同时进行的读取请求过多,可能导致资源竞争和响应时间延长。
  • 固件或驱动问题:软件层面的缺陷可能影响性能

核心技术分析

Fig-11

xiSTORE的独特之处

性能

1. 基于xiRAID——最快的RAID引擎

2. 行业内最快的驱动器重建时间

卓越的可靠性

1. 支持RAID 5、6、7.3、N+M/嵌套/去集群RAID

2. 高可用性集群

3. 防止静默数据损坏(Silent Data Corruption)

参考阅读 :

无缝集成

1. 支持分布式文件系统

2. 支持虚拟机管理

3. 无硬件锁定

Fig-12

xiRAID是基于以下内容的产品:

  • • 十年数学研究的成果
  • • 独特的数据保护算法
  • • 对现代CPU操作的深入了解

xiRAID专注于NVMe存储,是市场上唯一能够提供高达97%原始设备性能的软件解决方案。

xiRAID提供了软件RAID的灵活性,同时使用最少的系统资源。

右侧内容:

  • RAID性能(占原始驱动器基准性能的百分比)
    • • xiRAID:97%
    • • 传统硬件解决方案:51%

Fig-13

在测试中,xiRAID在市场上表现出RAID5和RAID6配置中最高的性能,且在RAID计算中使用最低的CPU负载(3-9%)

Fig-14

Note:小文件读写效率着实惊人

Fig-15

Xinnor的分布式RAID是一种创新的RAID实现方案,基于预定义的最佳数据、奇偶校验和备用盘的指标,分布在所有可用的驱动器上。

在驱动器故障的情况下,Xinnor的分布式RAID最大化参与重建过程的驱动器数量,确保高效且快速恢复。

右侧内容:

  • • 重建速度相比传统RAID提升超过10倍
  • • 比ZFS系统快2.6倍

Fig-16

分布式RAID实现

Xinnor的分布式RAID配置提出了跨所有磁盘的最佳数据分布,以加速RAID重建。

左侧内容:

  • 嵌套RAID50 (3+1)×4 在传统RAID中,数据恢复速度受到单个驱动器重建速度的限制。

右侧内容:

  • 分布式RAID50 (3+1)×4×2,带有两条备用条带 在分布式RAID中,快速重建通过系统内数据的特殊映射实现。在xiSTORE中,我们应用预计算的循环矩阵,以最大化并行性并最小化重建时间。

左侧和右侧的图例展示了传统RAID和分布式RAID在数据分布和恢复速度上的不同,分布式RAID通过优化数据映射实现更快的重建速度。

Fig-17

Xinnor分布式RAID与ZFS的性能对比

整个4000GB的HDD硬盘的重建时间约为25,000秒,这是传统RAID的最大性能。

测试硬件和软件配置:

  • • CPU:2x Intel(R) Xeon(R) Gold 6336Y CPU @ 2.40GHz
  • • 内存:512GB
  • • 硬盘:HGST HUS726040ALS210
  • • 操作系统:Oracle Linux 8.4
  • • 内核:5.4.17-2102.203.6.el8uek.x86_64

RAID级别

ZFS重建速度

xiRAID DCR重建速度

ZFS/DCR比率

(8+2) x 4 + 2

21,242

8,830

2.41

(6+2) x 8 + 2

11,346

5,152

2.20

(8+2) x 8 + 2

14,594

5,986

2.44

(4+1) x 3 + 2

17,326

8,122

2.13

(4+1) x 6 + 4

11,338

4,299

2.64

(8+1) x 3 + 3

19,844

10,504

1.89

在大多数配置下,xiRAID的重建速度比ZFS快,性能比率最高达到2.64倍,最低为1.89倍。

Fig-18

静默数据损坏 (SDC) 保护

是什么: xiSTORE使用静默数据损坏保护,帮助用户在常见的驱动操作期间检测和修正潜在的数据错误。

工作原理:

  • • 它作为后台服务运行,创建请求来扫描RAID中的所有条带。
  • • 该请求执行一次完整条带读取,并将重新计算的校验和与记录的校验和进行比较。

主要功能:

  • • 适用于RAID级别5, 50, 6, 60, 7, 70和分布式RAID。
  • • 提供不同的优先级级别(0-100%)。
  • • 请求队列深度可选(1-128)。
  • • 提供两种模式:仅检查检查和恢复
  • • 通过netlink发送错误通知,并进行两次独立广播(发现并修复了SDC错误)。
  • • 如果校验和错误多于1,可能会恢复条带。

关于RAID 7 RAID 7 是一种较少见且相对较新的 RAID 技术,它基于异步处理的思想,并结合了 RAID 3 和 RAID 4 的优势。虽然它在概念上类似于 RAID 5 和 RAID 6,但在设计和性能上存在一些显著的差异。以下是 RAID 7 的主要特点以及它与 RAID 5 和 RAID 6 的区别: RAID 7 的主要特点

  1. 1. 异步处理:RAID 7 使用专用的实时操作系统和缓存机制,以便异步地处理数据的读写。这种设计允许多个I/O操作并行进行,从而显著提高了整体性能,尤其是对于写入操作。
  2. 2. 内置缓存:RAID 7 集成了大容量的高速缓存,使得数据可以暂时存储在缓存中,等待更高效写入和读取。这种缓存系统使得读写速度大幅提升,特别是在高负载下表现出色。
  3. 3. 专用的奇偶校验驱动器:RAID 7 和 RAID 3/4 类似,使用一个专门的奇偶校验驱动器来存储校验数据。这意味着校验数据并不像 RAID 5 那样分布在所有驱动器上,而是集中在一块驱动器上。
  4. 4. 热插拔和冗余:RAID 7 支持热插拔功能,允许在系统运行时更换损坏的硬盘,同时具有冗余设计来确保数据安全。

RAID 7 与 RAID 5/6 的区别

  1. 1. 性能方面
    • RAID 7 通过异步处理和内置缓存系统提高了读写速度,特别是在写入操作方面的表现更加优越。相比之下,RAID 5 和 RAID 6 的写入速度因为奇偶校验的计算和更新而相对较慢。
    • • RAID 5 和 RAID 6 的读取性能较好,但写入性能相对较差,尤其是在大量小文件的操作上。
  2. 2. 奇偶校验机制
    • RAID 7 使用专用的奇偶校验驱动器,类似于 RAID 3/4,而 RAID 5RAID 6 采用的是分布式奇偶校验,将奇偶校验数据均匀分布在所有驱动器上。
    • RAID 6 有两个奇偶校验,因此数据冗余性更高,而 RAID 7 只有一个专用的奇偶校验驱动器。
  3. 3. 硬件复杂性
    • RAID 7 的架构更加复杂,通常需要专门的硬件支持和独立的操作系统来管理异步I/O操作和缓存机制,而 RAID 5 和 RAID 6 通常可以在传统的 RAID 控制器上实现。
  4. 4. 可靠性与容错性
    • RAID 7RAID 5 的容错性相同,只能容忍一块硬盘的故障。而 RAID 6 能够容忍两块硬盘的故障,因此在极端情况下 RAID 6 提供了更好的数据安全性。

Fig-19

可扩展性

为了为Lustre FS并行文件系统提供更大的容量和更高的性能,可以:

  • 纵向扩展 (SCALE-UP):通过在每个构建块中添加更多驱动器进行扩展。
  • 横向扩展 (SCALE-OUT):通过添加更多的构建块进行扩展

Fig-20

值得留意的是:xiNNOR的RAID方案,取得的性能提升都是基于IB网络的,暂时不支持以太网基础设施

总结

  1. 1. RAID+SDS,xiNOOR找准NVMe SSD 存储阵列软件RAID作为切入市场核心技术;并向下组合存储硬件,提供xiSTORE软件定义存储,可扩展的企业存储方案(Fig-2);
  2. 2. 基于IB网络的超高IO效率,全栈存储网络基于IB无损网,软件RAID方案能实现物理阵列理论性能的90%以上(Fig-12);
  3. 3. 分布式EC方案,提高云化环境中的数据恢复、重建速度(Fig-13/15/16)。
引用链接

[1] 产品宣讲: https://www.youtube.com/watch?v=hvuYbduNOhI&t=122s [2] 关于 XINNR: https://xinnor.io/

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-10-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 王知鱼 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • XiNNOR 公司介绍
  • xiRAID 与 xiSTORE 介绍
  • HDD 存储集群配置及实测数据
  • NVMe 存储集群配置及实测数据
  • 核心技术分析
  • 总结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档