按:本文是XINNOR团队主要负责人,23年11月底在线上做的一次产品宣讲[1],鹏弟本想把原视频拉取下来,有感主要技术负责人口语很难听懂,负担较大,文末附油管链接,感兴趣可自行跳转,了解一手信息。
Fig-1
关于 XINNR[2]
Fig-2
核心产品
Fig-3
xiSTORE 关键要素
1. xiRAID fr NVMe:市场上最快的软件RAID。
2. Declustered RAID fr HDD:通过预计算循环矩阵,提供最低驱动器重建时间和最大并行性。
3. High Availability(高可用性):该解决方案由双控制器构建块组成,工作于高可用集群中,以消除单点故障。
4. VM Management(虚拟机管理):具备运行虚拟机的能力,包括高可用性机制,增加系统灵活性并降低维护成本。
5. Lustre FS:基于分布式、对象存储的可扩展计算机网络存储平台。
Fig-4
xiSTORE 高级架构
图片底部展示了多个构建块系统的架构图,每个构建块都由共享驱动器和Lustre客户端连接管理,形成一个完整的存储系统。
Fig-5
构建块推荐的HDD配置
2个JBODs(每个JBOD至少包含86个驱动器);
4个DCR RAID 60配置,共42个HDD(8d+2p每组)用于Lustre OST(数据盘);
4个RAID 1(1d+1d)配置,使用SAS SSD作为Lustre Jurnal。
4个Lustre FS SS;
4个Lustre FS Jurnal。
右侧的图表展示了每个控制器的虚拟机和RAID引擎配置,并通过Lustre网络连接到多个JBD系统。
DCR(Declustered RAID)是一种改进型RAID方法,它将数据和校验分布在更多驱动器上,缩短了重建时间并提高了并行性能。 RAID 60是一种基于RAID 6的更高级别的RAID组合。RAID 6本身在每个磁盘阵列中包含两个校验盘(parity disks),允许最多两个磁盘同时发生故障而不丢失数据。RAID 60将多个RAID 6阵列组合在一起,通过在不同RAID 6组之间进行数据条带化(striping)来进一步提高性能和冗余。 8d+2p 8d 表示该RAID 6组中有8个数据盘(data disks),2p表示有2个校验盘(parity disks)。这意味着每组RAID 6阵列使用10个磁盘,其中8个用于存储数据,2个用于存储校验信息,从而提供数据冗余和容错能力。
Fig-6
HDD构建块配置
主板: ASRckRack MBD-EPYCR2ME/128
处理器: 1个 AMD EPYC 7763 64核处理器
内存: 总共192GB(6 x 32GB 36ASF4G72PZ-3G2E2)
InfiniBand网络: 1个 Mellanx Technlgies MT28908(CnnectX-6)
SAS HBA: 2个 Bradcm / LSI 9500-16e Tri-mde HBA
两台服务器共享的驱动子系统: 2个 WD Data 102 (HGST H4102-J),总共204个8TB HUS728T8TA LS204(测试中只使用了168个)。
关于 Tri-Mde HBA Tri-mde HBA(Hst Bus Adapter)是一种能够支持三种不同类型存储设备连接的主机总线适配器。它可以连接SAS(Serial Attached SCSI)、SATA(Serial ATA)、以及NVMe(Nn-Vlatile Memry Express)设备,因此被称为“Tri-mde”。
Fig-7
HDD构建块性能
单个构建块性能:
IR写入性能:21 GB/s IR读取性能:21 GB/s FI性能:27 GB/s
单个机架性能:
IR写入性能:60 GB/s IR读取性能:60 GB/s
Fig-8
构建块推荐的NVMe配置
驱动子系统:
Lustre文件系统配置:
Fig-9
基于AMD的NVMe构建块配置
平台:Viking Enterprise Slutins (VES) VSS2249R 存储服务器
CPU:每个节点配备AMD EPYC 7702P 64核处理器
内存:每个节点256 GB RAM
网络:每个节点配备2个MT28908家族(CnnectX-6)网络接口
硬盘:每个节点配备24个KIXIA CM6-R 3.84TB的驱动器,1.6TB的命名空间
软件配置:使用xiSTRE软件及Lustre 2.15.2版本
RAID配置:4组RAID 5,每组12个驱动器(11个数据盘+1个校验盘),SSD块大小为64k。
Fig-10
基于AMD的NVMe构建块性能
IOR写入性能:79.2 GB/s
IOR读取性能:81.2 GB/s
IOR降级读取性能:76.6 GB/s
IOR写入性能:1.4 TB/s
IOR读取性能:1.5 TB/s
IOR降级读取性能:1.3 TB/s
Note:NVME-SSD 的测试数据,Rack是Block的20倍
IOR降级(IOR degradation)通常指的是在存储系统或存储介质的性能下降,尤其是在读取操作时。这个现象可能由多种因素引起,包括:
Fig-11
xiSTORE的独特之处
性能:
1. 基于xiRAID——最快的RAID引擎
2. 行业内最快的驱动器重建时间
卓越的可靠性:
1. 支持RAID 5、6、7.3、N+M/嵌套/去集群RAID
2. 高可用性集群
3. 防止静默数据损坏(Silent Data Corruption)
参考阅读 :
无缝集成:
1. 支持分布式文件系统
2. 支持虚拟机管理
3. 无硬件锁定
Fig-12
xiRAID是基于以下内容的产品:
xiRAID专注于NVMe存储,是市场上唯一能够提供高达97%原始设备性能的软件解决方案。
xiRAID提供了软件RAID的灵活性,同时使用最少的系统资源。
右侧内容:
Fig-13
在测试中,xiRAID在市场上表现出RAID5和RAID6配置中最高的性能,且在RAID计算中使用最低的CPU负载(3-9%)
Fig-14
Note:小文件读写效率着实惊人。
Fig-15
Xinnor的分布式RAID是一种创新的RAID实现方案,基于预定义的最佳数据、奇偶校验和备用盘的指标,分布在所有可用的驱动器上。
在驱动器故障的情况下,Xinnor的分布式RAID最大化参与重建过程的驱动器数量,确保高效且快速恢复。
右侧内容:
Fig-16
分布式RAID实现
Xinnor的分布式RAID配置提出了跨所有磁盘的最佳数据分布,以加速RAID重建。
左侧内容:
右侧内容:
左侧和右侧的图例展示了传统RAID和分布式RAID在数据分布和恢复速度上的不同,分布式RAID通过优化数据映射实现更快的重建速度。
Fig-17
Xinnor分布式RAID与ZFS的性能对比
整个4000GB的HDD硬盘的重建时间约为25,000秒,这是传统RAID的最大性能。
测试硬件和软件配置:
RAID级别 | ZFS重建速度 | xiRAID DCR重建速度 | ZFS/DCR比率 |
---|---|---|---|
(8+2) x 4 + 2 | 21,242 | 8,830 | 2.41 |
(6+2) x 8 + 2 | 11,346 | 5,152 | 2.20 |
(8+2) x 8 + 2 | 14,594 | 5,986 | 2.44 |
(4+1) x 3 + 2 | 17,326 | 8,122 | 2.13 |
(4+1) x 6 + 4 | 11,338 | 4,299 | 2.64 |
(8+1) x 3 + 3 | 19,844 | 10,504 | 1.89 |
在大多数配置下,xiRAID的重建速度比ZFS快,性能比率最高达到2.64倍,最低为1.89倍。
Fig-18
静默数据损坏 (SDC) 保护
是什么: xiSTORE使用静默数据损坏保护,帮助用户在常见的驱动操作期间检测和修正潜在的数据错误。
工作原理:
主要功能:
关于RAID 7 RAID 7 是一种较少见且相对较新的 RAID 技术,它基于异步处理的思想,并结合了 RAID 3 和 RAID 4 的优势。虽然它在概念上类似于 RAID 5 和 RAID 6,但在设计和性能上存在一些显著的差异。以下是 RAID 7 的主要特点以及它与 RAID 5 和 RAID 6 的区别: RAID 7 的主要特点:
RAID 7 与 RAID 5/6 的区别:
Fig-19
可扩展性
为了为Lustre FS并行文件系统提供更大的容量和更高的性能,可以:
Fig-20
值得留意的是:xiNNOR的RAID方案,取得的性能提升都是基于IB网络的,暂时不支持以太网基础设施。
[1]
产品宣讲: https://www.youtube.com/watch?v=hvuYbduNOhI&t=122s
[2]
关于 XINNR: https://xinnor.io/