都是EC，为什么QLC要考虑LDEC？

数据存储前沿技术

发布于 2025-10-09 10:40:36

870

全文概览

高密度闪存时代，传统纠删码的“重建惩罚”正成为存储系统性能与可靠性的巨大瓶颈。当一块30TB的QLC SSD故障，您是否想过重建它需要读取多少数据？系统性能会如何急剧恶化？VAST Data的LDEC技术，并非传统纠删码的渐进式改良，而是一场范式转移。它如何通过“本地解码”颠覆性地解决读取放大，让QLC闪存真正走向主存储？本文将深入解析LDEC的架构奥秘，揭示其如何重塑数据韧性与存储经济性。

阅读收获

LDEC核心：理解其“本地解码”如何解决大容量闪存重建的读取放大，提升QLC性能与耐久性。
DASE赋能：认识DASE超宽条带如何支撑LDEC，实现极致故障隔离与低影响重建。
选型新规：评估全闪存时，将“故障模式下性能”作为核心，审慎考量QLC方案的TCO与未来扩展性。
未来战略：LDEC为高密度QLC闪存大规模应用提供可行性，是应对未来存储密度增长的关键。

摘要

本文旨在对VAST Data的LDEC（Locally Decodable Erasure Codes，本地可解码纠删码）技术进行深度架构分析。分析表明，LDEC并非对传统纠删码（Erasure Coding, EC）的渐进式改良，而是一种根本性的重新架构。该技术专为解决高密度、低耐久性闪存介质（如QLC NAND）在传统EC下面临的严峻性能与耐久性瓶颈而设计。

核心研究结论如下：

技术创新核心：LDEC的主要创新在于其成功实现了“本地可解码码”（Locally Decodable Codes）的理论精髓，从而颠覆性地降低了驱动器重建过程中的“读取放大”（Read Amplification）效应。读取放大是传统EC在PB级规模系统中面临的最大挑战。
“部分数据提取”的本质：报告中提及的“仅提取部分数据”即可恢复文件的能力，是LDEC本地解码特性的直接体现。它允许系统通过读取幸存数据和校验块中的一个微小子集，来精确重建丢失的数据。这与传统EC必须读取条带中所有幸存数据块的机制形成了鲜明对比。
架构依赖性：LDEC的效能并非孤立存在，而是与其底层的DASE（Disaggregated, Shared-Everything，分离式共享一切）架构紧密耦合、互为前提。DASE架构能够构建横跨成百上千个独立SSD的超宽纠删码条带，这是LDEC发挥其优势的结构性基础。
战略性影响：LDEC从根本上改变了将QLC闪存用于主存储工作负载的经济和运营模型。通过有效缓解因驱动器故障而产生的巨大性能衰减和介质损耗，LDEC在不牺牲性能和可靠性的前提下，成功释放了QLC的成本与密度优势，对企业的总拥有成本（TCO）和基础设施战略产生深远影响。（克服QLC 难以商业化大规模使用的场景困境）

传统EC的困境

为了深刻理解LDEC技术的革命性，必须首先审视当前存储行业面临的一个关键难题：传统数据保护技术在大容量闪存时代已然触及其能力上限。

传统纠删码机制

传统纠删码，特别是里德-所罗门（Reed-Solomon）码，是现代存储系统中实现数据冗余和容错的核心技术。其基本原理可表示为模型：将一份数据分割成个数据块，并通过多项式计算生成个校验块。这个块被分散存储在不同的物理驱动器上。系统可以容忍最多个块（即个驱动器）同时发生故障而数据不丢失。

其恢复机制是关键所在。当一个数据块或校验块丢失时，基于里德-所罗门码的解码器必须读取该条带中至少个幸存的块。通过这些数据，解码器可以重建描述这些数据点的多项式方程组，进而求解出丢失块的内容。这一过程在数学上是完备的，但在物理实现上却隐藏着巨大的开销。

高密度驱动器时代的“重建惩罚”

随着SSD容量从几TB跃升至数十TB（如30TB的QLC SSD），传统EC的恢复机制引发了一场危机，通常被称为“重建惩罚”（Rebuild Penalty）。

读取放大危机：这是问题的核心。在一个采用传统EC（例如方案）的存储系统中，当一块30TB的SSD发生故障时，系统为了重建这1块丢失的驱动器，必须从其余8个健康的驱动器上读取全部数据。这意味着总共需要读取的数据量。这种现象被称为读取放大，其放大系数高达800%。如此庞大的后台I/O请求会形成一场“I/O风暴”，席卷整个存储系统。
性能急剧恶化：在漫长的重建过程中，存储系统的绝大部分资源（CPU、网络带宽、后端磁盘I/O）都被后台重建任务所占据。这直接导致前台应用（例如数据库、虚拟机、分析应用）的性能急剧下降，响应延迟飙升，吞吐量锐减，业务体验受到严重影响。重建过程可能持续数小时甚至数天。
QLC耐久性挑战：QLC NAND闪存虽然成本低、密度高，但其可编程/擦除（P/E）周期远低于TLC或SLC介质。传统EC重建过程中的海量读取操作，会对健康的QLC驱动器造成严重的读取干扰（Read Disturb）和额外的内部垃圾回收，从而加速其磨损，显著缩短其有效寿命。这不仅增加了硬件更替成本，更危险的是，它提高了在漫长且脆弱的重建窗口期内发生第二次、第三次驱动器故障的概率。

这种状况形成了一个恶性循环：驱动器容量越大，重建时间越长；重建时间越长，系统处于降级状态的风险窗口就越宽；风险窗口越宽，发生第二次故障导致数据永久丢失的概率就越高。为了规避风险，管理员可能被迫采用更高冗余度的EC方案（如或），但这又会增加校验开销，降低空间利用率，且在某些情况下可能进一步加剧重建时的I/O负担。因此，使用高性价比、高密度的QLC驱动器与传统EC相结合的架构，在规模化部署时会产生巨大的运营风险和隐性成本，很大程度上抵消了其初期的TCO优势。

架构基石：DASE与LDEC共生

LDEC并非一个可以简单移植的软件功能，而是与VAST Data独特的系统架构——DASE（Disaggregated, Shared-Everything）深度融合的产物。理解DASE是理解LDEC为何能有效运作的关键。

解构DASE架构

DASE架构的核心思想是将传统存储系统的紧耦合形态进行解构：

分离（Disaggregation）：系统被分解为两类独立的节点。一类是无状态的计算节点（C-Node），负责处理所有I/O逻辑、数据缩减、元数据服务和协议前端（如NFS, S3）。另一类是高密度的存储节点（D-Node），它们仅包含物理SSD和NVMe-oF（NVMe over Fabrics）接口，负责数据的物理存取。
共享一切（Shared-Everything）：所有C-Node通过一个高性能、低延迟的NVMe-oF网络，可以直接访问所有D-Node中的所有SSD。这打破了传统“无共享”（Shared-Nothing）架构中节点“拥有”其本地驱动器的限制，形成了一个统一、巨大、可被所有计算资源共享的全局闪存池。

DASE如何赋能LDEC的超宽条带

LDEC的一个显著特征是使用极宽的纠删码条带，例如。这意味着一个数据保护条带由150个数据块和4个校验块组成，分布在154个不同的SSD上。

这种超宽条带在传统架构中是不可想象的，因为单个控制器或节点的故障将影响条带中的太多元素，且重建惩罚会随着值的增大而呈线性增长，变得无法承受。然而，在DASE架构中，这成为可能：

广域分布：由于所有SSD构成一个共享池，一个的条带可以轻松地将其154个元素分布在数十个不同的D-Node物理机箱中。
故障域隔离：这种分布方式提供了极致的故障域隔离。单个SSD故障、整个D-Node机箱掉电、甚至一整个机架断网，对于一个横跨全场的超宽条带而言，可能仅仅意味着丢失了其中的几个元素。由于，系统可以从容应对多达4个任意元素的并发故障，而不会有数据丢失的风险。

DASE架构本身提供了一种架构层面的韧性。它将硬件故障的“爆炸半径”从整个节点或机箱缩小并分散到整个集群。一个D-Node的故障，从数据保护层的视角看，其影响被摊薄，严重性大大降低。这种架构韧性是实现低影响重建的先决条件，系统处理的不再是濒临崩溃的紧急事件，而是一项常规的、局部的维护任务。

Dave's point

DASE 架构的集群化优势，对部署规模有很大的要求，但同时也给存储系统足够的故障恢复阈。

LDEC条带布局可视化

下图表展示了DASE架构以及LDEC宽条带如何在其中分布：

LDEC与EC对比

本节将通过结构化的对比，直接回应关于LDEC与传统EC差异的核心问题。

理论鸿沟：全局解码 vs. 本地解码

全局解码（传统EC）：里德-所罗门码等经典纠删码本质上是“全局解码”的。要恢复码字中的任何一个符号（数据块），需要获取整个码字的全局属性，即访问其他个符号。这是其高读取放大的数学根源。解码过程涉及求解一个覆盖整个条带的高阶多项式。
本地解码（LDEC）：LDEC是“本地可解码码”（LDC）理论在存储系统中的一种工程化实现。LDC是编码理论中一个著名但计算上极具挑战性的分支。其核心思想是，编码后的码字具备一种特殊结构，使得原始信息中的任何一个符号，都可以通过查询（读取）码字中一个预先定义好的、非常小的符号子集（称为“局部性集合”或"locality group"）来高概率地恢复。VAST Data的突破在于将这一理论转化为一个在商业上可行、高性能且可扩展的实用系统。

技术参数对比表

下表从多个维度对两种技术进行了详细对比：

参数	传统纠删码 (例如里德-所罗门码)	VAST Data LDEC (本地可解码纠删码)	意义
重建机制	全局解码：重建1个故障块，必须读取条带中所有$k$个幸存的数据块。	本地解码：重建1个故障块，仅需读取一个预先确定的、由少量数据块和校验块组成的微小子集。	从根本上将数据恢复的I/O模式从“暴力”读取转变为“外科手术式”的精准操作。
读取放大	极高。对于$k+p$条带，重建1个驱动器需读取$k$个驱动器的数据量（例如$8+2$条带为800%）。	极低。VAST声称其重建读取的数据量仅为传统方法的2-4%。I/O开销与故障数据量成正比，而与条带宽度无关。	大幅降低对前台应用的性能影响，并最大限度地减少对健康SSD的磨损。
性能影响	严重且系统级。重建I/O风暴消耗大量网络、CPU和后端I/O，导致用户侧的延迟和吞吐量在数小时或数天内持续恶化。	微乎其微且局部化。极低的I/O需求使重建可以作为低优先级后台任务运行，对系统整体性能的影响可忽略不计。	即使在多个并发硬件故障期间，也能保持一致和可预测的性能。
对QLC的适用性	差。重建时的高读取放大会对健康的QLC驱动器造成过度磨损，缩短其寿命，抵消其成本优势。	优秀。重建期间的最小化读取I/O保护了健康QLC驱动器的耐久性，使QLC成为主存储的经济可行选择。	在不承担耐久性和性能风险的情况下，解锁高密度QLC NAND的TCO优势。
条带几何形态	窄条带 (例如 $6+2$, $8+2$)。受限于单个控制器的“爆炸半径”和宽条带高昂的重建代价。	超宽条带 (例如 $150+4$)。由DASE架构赋能，并通过低影响的本地重建确保其安全性。	实现更高的存储效率（更低的校验开销）和对多个并发故障的更强抵御能力。
架构依赖性	可运行在单体、纵向扩展（Scale-up）或无共享（Shared-Nothing）架构上。	强依赖于分离式共享一切架构（DASE），以实现必要的超宽条带和故障域隔离。	LDEC并非一个可移植的软件功能，而是一个整体系统设计的有机组成部分。

LDEC重建详解

“部分数据提取”是LDEC技术最引人注目的特性，它准确描述了本地解码的实际工作流程。

LDEC重建流程详述

当一个数据块因SSD故障等原因丢失时，VAST系统的元数据服务能够立即识别出重建该块所需的“本地组”（locality group）。这个组由分布在其他驱动器上的特定数据块和校验块构成。

定位：系统元数据确定丢失块的本地恢复集，例如，它可能由位于SSD 5上的块、SSD 21上的块以及SSD 112和SSD 145上的两个校验块和组成。
精准读取：系统仅向持有这些特定本地组块（）的驱动器发起小规模、目标明确的读取请求。
解码计算：C-Node收到这些少量数据后，执行一个计算上非常简单的解码操作（在许多本地码的设计中，这可能简化为一系列异或XOR运算）。
写入：丢失的块被成功重建，并被写入到集群中的备用空间。

整个过程的I/O量和计算量都被严格限制在最小范围内。这解释了为何VAST声称其重建速度极快，且对系统性能影响甚微。系统恢复的粒度从“整个驱动器”细化到了“单个数据块”。

重建工作流对比（可视化）

以下Mermaid流程图直观地对比了两种重建方法的I/O和计算流程：

这是一项“新技术”吗？

对此问题的回答具有两面性：

理论并非全新：本地可解码码（LDC）的数学原理在学术界的计算机科学和编码理论领域已经存在了数十年。相关的基础性论文可以追溯到上世纪90年代。从理论层面看，它并非一项横空出世的新发明。
实现即是创新：其真正的“新”和“突破”在于VAST Data的工程实现。将LDC这种理论上优美但实践中充满挑战的技术，成功地转化为一个商业上可行、性能卓越、且能大规模扩展的存储产品，是一项巨大的工程成就。克服其潜在的计算开销，并将其与一个量身定制的硬件架构（DASE）无缝集成，这本身就是核心创新。它代表了将前沿学术研究成功产品化的典范，而这是传统存储厂商此前未能有效实现的。

这种实现打破了一个长期存在于存储系统设计中的固有权衡：过去，更宽的条带（空间效率更高）必然意味着更痛苦、风险更高的重建。LDEC则允许系统同时享有超宽条带带来的高空间效率和快速、低风险的局部化重建，这是一个根本性的范式转变。

结论：启示与基础设施建议

对LDEC及其底层架构的分析揭示了其对现代数据中心战略的深远影响。它不仅是一项技术特性，更是一种解决未来存储挑战的系统性方案。

核心发现

LDEC技术在DASE架构的支撑下，通过实现本地解码，从根本上解决了传统纠删码在面对大容量驱动器时的“重建惩罚”问题。这一组合拳式的创新，不仅化解了性能与可靠性危机，更关键的是，它为大规模采用高密度、高性价比的QLC闪存铺平了道路，从而重新定义了全闪存存储的经济性。这并非简单的功能优化，而是一种系统性的设计哲学，重塑了数据保护、系统性能与硬件成本之间的关系。

可行性建议

对于负责企业IT基础设施战略的CTO、首席架构师和IT主管而言，LDEC的出现要求他们重新审视现有的评估框架和采购策略：

Check

重塑评估指标：在评估全闪存阵列时，应超越传统的“速度与容量”（speeds and feeds）基准测试。必须将“故障模式下的性能”（performance-under-failure）作为核心评估指标。要求供应商提供在单驱动器、单节点乃至多个并发故障重建期间，系统的真实性能数据，包括应用延迟、吞吐量和P99服务质量（QoS）的变化。
审慎评估QLC方案：对于任何宣称支持QLC的存储平台，其数据保护和重建机制应成为技术尽职调查的首要焦点。“支持QLC”的声明本身毫无意义，除非厂商能提供一个可信的、能解决重建风暴和耐久性损耗问题的方案。LDEC提供了一个经过验证的解决方案，任何竞争性方案都必须经过同等严格的审视。
进行整体TCO建模：总拥有成本（TCO）分析必须超越初期的采购成本（$/TB）。模型中必须量化传统EC在QLC上部署时的隐性成本，包括：重建期间性能下降造成的业务损失、健康驱动器加速磨损导致的硬件提前换代、以及为保证安全而采用更高冗余度带来的可用容量损失。反之，LDEC带来的TCO收益——如超宽条带带来的更高空间利用率、更长的介质寿命、以及持续稳定的高性能——也应被精确量化。
面向未来的密度增长进行规划：随着SSD单盘容量持续攀升至50TB、100TB甚至更高，传统EC的重建惩罚将呈指数级恶化，最终变得不可管理。采用一种为局部化、低影响重建而设计的架构（如VAST的DASE+LDEC模型），是确保基础设施能够适应未来存储密度必然增长趋势的一项关键战略决策。这不仅关乎当前成本，更关乎未来数年内技术架构的可持续性与可扩展性。

延伸思考