阅读收获
- 掌握存储扩容策略精髓: 深入理解Scale Up与Scale Out的优劣与适用场景,为存储系统设计提供决策依据,避免盲目选择带来的性能与成本挑战。
- 洞察AI时代存储新范式: 了解NVIDIA Grace CPU和DPU如何通过原生生态集成、超高内存带宽和极致能效比,彻底解决AI/ML工作负载的I/O瓶颈,加速模型训练与推理。
- 理解存储解耦与软件定义: 认识JBOF+DPU架构如何实现存储与计算的彻底解耦,构建可组合式分解基础设施,提升资源利用率和系统灵活性。
- 前瞻未来硬件趋势: 熟悉EDSFF、CXL等下一代存储接口和互联技术,为规划未来数据中心基础设施提供前瞻性视角。
全文概览
传统Scale Up与Scale Out模式的边界在哪里,它们又将如何演进以适应未来挑战?本文将带您深入探索存储技术的最新演进,从经典的扩容策略到颠覆性的DPU与Grace CPU设计,揭示如何构建面向未来的高性能、高能效数据平台。我们将一同审视存储资源如何从服务器的附属品,蜕变为网络原生的独立服务节点,以及这背后蕴含的架构哲学变革。这不仅关乎硬件迭代,更是对数据中心设计理念的深刻重塑。
👉 划线高亮 观点批注
图中右上角对三类常见存储资源的使用场景划分值得参考。
尽管业界基于对象存储的网关应用越来越多,加 iscsi 网关构成 块存储服务,加 NFS/Samba 网关构建文件存储,但不同存储形态与生俱来就有场景差异,为了缓解成本(普遍印象里对象存储成本低,其实不低),而做协议切换,往往对系统IO稳定性带来巨大挑战。
选择适合的,少折腾,才是对系统应用负责。
图下方介绍了存储扩容常见的两个概念:SCALE UP 和 SCALE OUT,稍作对比,以增强理解:
Cite
1. SCALE UP (垂直扩容)
- 概念: SCALE UP,也称为垂直扩容,是指通过增加单个存储设备(如服务器或存储阵列)的资源来提升其性能和容量。你可以把它想象成给一台电脑升级配置。
- 具体操作:
- 增加硬盘数量或更换更大容量的硬盘。
- 增加内存(RAM)。
- 升级更快的处理器(CPU)。
- 增加更高速的网络接口卡(NIC)。
- 优点:
- 管理相对简单,因为你只管理一个或少数几个设备。
- 通常性能提升更直接,因为所有资源都在一个物理设备上。
- 缺点:
- 存在硬件上限,单个设备的资源是有限的,不可能无限扩容。
- 成本较高,高端硬件通常更昂贵。
- 单点故障风险,如果这个设备出现问题,整个存储系统可能会受影响。
- 扩容时可能需要停机。
2. SCALE OUT (水平扩容)
- 概念: SCALE OUT,也称为水平扩容,是指通过增加更多的存储设备(服务器或存储节点)来共同分担负载和增加总容量。你可以把它想象成增加更多的电脑来组成一个集群。
- 具体操作:
- 添加更多的存储服务器或存储节点到一个集群中。
- 通过分布式文件系统或对象存储系统将这些节点连接起来,使其作为一个统一的存储资源对外提供服务。
- 优点:
- 几乎可以无限扩容,只要不断添加新节点即可。
- 高可用性,即使部分节点出现故障,整个系统仍然可以继续运行(通过数据冗余和故障转移机制)。
- 成本效益更高,可以使用标准化的、相对便宜的硬件。
- 通常可以在线扩容,无需停机。
- 缺点:
- 管理复杂性增加,需要管理更多的设备和分布式系统。
- 数据一致性和同步可能成为挑战。
- 需要专门的软件(如分布式文件系统、对象存储软件)来协调和管理这些节点。
总结对比
在现代云计算和大数据环境中,SCALE OUT 策略因其灵活性、高可用性和成本效益而越来越受欢迎。然而,SCALE UP 在某些特定场景下(例如需要极致单机性能或管理简单性)仍然有其价值。
存储产品族
左侧3个属于HDD整机产品,从左到右依次区分为:企业级、云服务商高密型(顶开盖式)和通用型
- 企业级区分2U/3U/4U,可容纳16-36 个3.5英寸大硬盘 (LFF Bays)
- 云服务高密型,主要是4U机型,最高可容纳 90个硬盘
- 通用的2U型,有24个机械盘位+4个 NVMe SSD 缓存盘
右侧2个属于全闪SSD存储,区分高可用双端口(控制器)和极致性能型
- 这里提到的全共享架构 (Shared Everything Architecture) 和 VAST 的软件实现是两个不同概念,是指:
- 两个控制器都连接到同一个背板 (Backplane) 上,而机箱前方的所有24个NVMe SSD都插在这个背板上。
- 这就实现了“共享”:无论哪个控制器,都可以通过共享背板访问到全部24个硬盘。它们还共享同一个机箱、电源和风扇等基础资源。
高可用双控制器机箱内部架构
- 完全冗余的系统设计: 产品的核心是 “无单点故障” 。从双热插拔控制器,到双端口NVMe硬盘,再到冗余电源和冗余风扇,所有关键组件都成对出现,确保任何单个部件的故障都不会导致整个系统宕机。
- “共享架构”的物理实现: 这张图清晰地展示了上一页提到的“全共享架构”是如何实现的。两个独立的控制器“大脑”(CPU)被放置于同一个机箱内,通过共享的硬盘背板共同访问前端的24块双端口NVMe硬盘,这是整个共享存储设计的物理基础。
- 高性能的硬件规格: 除了高可用性,该产品还定位在高性能。采用支持高功耗CPU的平台、最新的DDR5内存和PCIe 5.0总线,配合全NVMe存储介质,旨在提供强大的IO处理能力,满足严苛的应用性能需求。
双端口纵向扩展架构
解释了 纵向扩展的核心逻辑:
- 双控制器内部结构: 绿色方框内清晰地展示了两个完全对称、相互独立的控制器。每个控制器内部都包含 CPU、内存、用于管理带外功能的 BMC 芯片,以及一个关键的 Gen5 PLX 芯片。PLX 是一种 PCIe 交换机,用于扩展CPU提供的PCIe通道,从而可以连接更多的设备。
- 前端客户网络(橙色箭头): 每个控制器通过其 PCIe 插槽(x16、x8)连接到外部网络(图中的云“Networking”)。这代表了数据中心或用户的应用服务器访问存储的路径。由于两个控制器都有独立的网络连接,因此前端访问路径是完全冗余的。
- 后端硬盘扩展(蓝色箭头): 这是本图的重点。两个控制器同样通过其 PCIe 插槽,分别引出独立的路径连接到左侧的 JBOD 扩展柜。这部分被明确标注为 “全冗余 JBOD 扩展 (Fully Redundant JBOD Expansion)”。这意味着每个控制器都有自己专属的、不共享的通道去访问扩展柜里的所有硬盘。
使用PFS实现纵向扩展+横向扩展
面向 HPC 和 AI/ML 的数据密集型场景,经典的 SCALE UP 架构往往因为 元数据节点的性能瓶颈而无法满足海量数据并发访问需求,因此需要寻求 SCALE OUT 架构。
这张图有一定歧义,通常大规模 PFS(并行文件存储) 架构,元数据和存储节点 是分开,通过高速网络连接,而不是像图中 元数据+存储节点 这样单独横向扩展出来。
- 混合扩展模式的优势: 它不再推崇单一的扩展模式,而是主张“两者兼得”。
- 纵向扩展 (Scale-Up) 用于构建单个大容量、高吞吐的数据存储节点,实现成本效益。
- 横向扩展 (Scale-out) 用于将多个这样的节点(包括元数据节点和数据节点)组成一个更大的集群,实现性能和容量的近乎无限增长。
- 软硬件解耦与分层设计: 该架构最精妙之处在于将元数据(Metadata)处理和数据(Data)存储分离。
- 用高速、低延迟的服务器(通常是全闪存)专门处理元数据,解决海量小文件访问和快速文件查找的瓶颈。
- 用高容量、高吞吐的服务器专门存储数据,解决大文件读写和总容量的需求。
- 这种分离设计可以针对不同的性能瓶颈进行独立、精准的扩展,避免资源浪费。
- 并行文件系统 (PFS) 是关键: 如果没有PFS这个软件层,上述所有硬件只是独立的服务器堆砌。PFS将它们“粘合”成一个有机的整体,对上层应用提供一个单一、易于访问的入口,并负责在底层高效地调度IO,实现并行读写,从而最大化发挥出整个硬件集群的潜力。
为大规模负载设计的旗舰级全闪存存储服务器
发布并展示Supermicro旗舰级的 “EDSFF Petascale” 全闪存服务器系列,强调其是面向未来的、性能和密度极致化的数据平台。
- 全面拥抱下一代标准 (EDSFF & CXL): 该产品线的基石是全面采用了EDSFF闪存规格。Supermicro认为EDSFF相比传统U.2在散热、功耗、密度和通用性上都有巨大优势。同时,前瞻性地集成了CXL技术,突破了传统内存容量的限制,直击AI和内存计算等前沿应用的痛点。(在存储节点配置CXL扩展插槽,这种设计合理吗?)
- 极致的性能与密度: 通过具体的性能数据(1.9PB容量、3000万IOPS、230GB/s带宽),该PPT旨在传递一个信息:这系列产品在存储的 “速度” 与 “容量” 两个关键维度上都达到了业界顶尖水平,是构建PB级(Petascale)高性能存储集群的理想“积木”。
- 前所未有的平台选择自由度: 一个巨大的亮点是它同时支持来自 Intel、NVIDIA (ARM架构 Grace) 和 AMD 的最新CPU平台。这给了客户极大的灵活性,可以根据自己的应用生态、软件栈和采购偏好来选择最合适的计算核心,而不是被锁定在单一技术路线
搭载NVIDIA Grace CPU Superchip
搭载NVIDIA Grace CPU Superchip
Grace CPU 主要参数
行业内首个基于 Grace CPU 设计的存储系统
行业内首个基于 Grace CPU 设计的存储系统
搭载NVIDIA Grace CPU的Supermicro Petascale服务器,是为NVIDIA AI生态系统量身打造的、性能和效率最优的存储解决方案。
- 原生生态集成是最大卖点: 最大的亮点在于与NVIDIA AI技术栈的“无缝”和“深度”集成。通过对GDS、DOCA、CUDA的原生支持,它能够最大化地发挥NVIDIA AI工厂中GPU和DPU的潜力,消除传统架构中的I/O瓶颈。
- 专为AI负载的性能瓶颈而设计: 该架构直接针对AI应用中最常见的两大瓶颈进行优化:
- 通过 1TB/s的超高内存带宽,解决了大型模型和数据集对内存带宽的极致需求。
- 通过 GDS认证 和优化的IO架构,解决了GPU集群的数据供给问题,让昂贵的GPU不必再“空等”数据。
- 极致的能效比: 对于需要部署成百上千个节点的大规模AI集群而言,功耗和运营成本(TCO)是至关重要的考量因素。该产品利用ARM架构的Grace CPU,主打 “高性能与低功耗” 的能效优势,直击大规模部署的痛点。
NVLink 的高带宽优势正逐渐衍生为存储产品的设计原则。
什么是 DOCA?
DOCA 是一个缩写,全称是 Data-Center-Infrastructure-on-a-Chip Architecture,中文可以理解为 “数据中心芯片级基础架构”。
简单来说,DOCA 是 NVIDIA 为其 BlueField DPU(数据处理器)打造的软件开发套件(SDK)和统一的软件平台。
我们可以用一个类比来快速理解它:
可以简单地将 DOCA 理解为 “DPU 领域的 CUDA”。
- CUDA 是让开发者能够调用和编程 GPU 强大并行计算能力的软件平台。
- 而 DOCA 则是让开发者和数据中心管理员能够调用和编程 DPU 强大基础架构处理能力的软件平台。
DPU 替代传统CPU+内存 的存储方案
DPU存储节点 核心价值
一种新的存储系统设计范式:即用DPU完全取代传统的x86 CPU,来充当存储系统的“大脑”。
- 存储控制器的革命 (“DPU即控制器”): 最大的亮点是“Self-host DPU”概念的落地。这意味着存储的控制平面和数据平面都下沉到了DPU上,实现了存储与计算服务器的彻底解耦(Disaggregation)。一个装有BlueField DPU的JBOF,本身就构成了一个完整的、可通过网络访问的高性能存储节点。
- 极致的能效是关键驱动力: 该方案最直接、最吸引人的优势是显著降低功耗(15-20%)。在电费高昂、追求绿色节能的大规模数据中心里,这是一个极具竞争力的价值主张,能有效降低总体拥有成本(TCO)。
- 展示了具体落地的产品: Supermicro通过展示具体的服务器型号和可维护的硬件设计,表明这并非一个纯理论概念,而是已经产品化的、可以实际部署的解决方案。
值得一提的是:基于 DPU 的存储方案,VAST 的 D node 节点已经采取这种设计方案,在高性能场景有过落地实践。
JBOD 和 JBOF 的对比
展示了存储架构从 “以服务器为中心的传统DAS架构” 到 “以网络为中心的现代解耦架构” 的演进。
- JBOD 代表过去/现在(服务器的附属品):
- 它是一种简单、直接的容量扩展方式,将存储视为特定服务器的“外挂硬盘盒”。
- 这种模式的主要缺点是形成了 “存储孤岛” ,资源无法灵活共享,扩展性受限于单个控制器的能力。
- JBOF (+DPU) 代表未来(网络的原生公民):
- 它通过将智能(DPU)直接赋予存储端,将存储从服务器的附属品解放出来,使其成为一个独立的、可通过网络访问的、可共享的服务节点。
- 这种模式是构建软件定义存储和可组合式分解基础设施(CDI) 的基础。它打破了存储孤岛,允许计算和存储资源按需、独立地扩展和组合,是现代云数据中心的理想架构。
延伸思考
这次分享的内容就到这里了,或许以下几个问题,能够启发你更多的思考,欢迎留言,说说你的想法~
- 在您的实际工作中,Scale Up和Scale Out策略分别在哪些场景下发挥了最大价值?您认为未来存储架构会如何进一步融合这两种模式,以应对更复杂的业务需求?
- DPU和Grace CPU在存储领域的应用,将如何重塑数据中心的设计理念和运维模式?您认为其普及面临的最大挑战是什么,例如生态兼容性或开发门槛?
- 随着CXL等新技术的兴起,存储与计算的边界日益模糊。您认为这种融合趋势会给数据密集型应用带来哪些颠覆性机遇和潜在风险?
原文标题:High Performance Storage for the Data Center[1]
Notice:Human's prompt, Datasets by Gemini-2.5-Pro
#FMS25 #超微存储方案
---【本文完】---
公众号:王知鱼,专注数据存储、云计算趋势&产品方案。
PPT取自 超微 存储产品经理 Paul McLeod,在FMS 2025 闪存峰会上的汇报材料。
👇阅读原文,查看历史文章,推荐PC端打开 💻。
- https://files.futurememorystorage.com/proceedings/2025/20250807_DCTR-304-1_McLeod.pdf ↩