Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >纠删码优势分析

纠删码优势分析

作者头像
用户4700054
发布于 2022-08-17 04:32:04
发布于 2022-08-17 04:32:04
1.7K0
举报

纠删码概述

  • 存储节点或者存储介质失效已经成为经常的事情,提高存储可靠性以及保障数据可用性已经变得非常重要,纠删码具有高存储效率和高容错能力。在体量非常大的存储中纠删码存储方式相比副本方式存在编码开销,又由于其特有的IO访问路径,其改进空间比较大
  • 保障数据可用性的常用方法就是数据冗余,传统的数据冗余方式就是副本和纠删码方式,副本是将每个原始数据分块都镜像复制到其他设备上来保证原始数据丢失或者失效时有副本可恢复;副本方式不涉及数据变换,而纠删码会对数据进行变换和运算,得到支持数据冗余的编码数据,比如k+r(k个数据块,r个校验块)纠删码为例,将一个原始数据分为k个数据块,然后将其编码成为k+r个编码分块,并将编码分块分布存储多个节点或者存储介质上。
  • 副本机制是一种最简单的冗余策略,也称为镜像方法,其基本思想是将数据文件按照固定大小切成分块,每个数据分块在不同的多个位置保存副本。数据的可靠性与副本数目成正比,副本数目越多,数据的可靠性就越好。然而存储效率是存储系统一个最重要的衡量指标,它的计算公式存储效率 = 数据空间/(数据空间+校验空间年),.其次还有存储冗余度和存储开销两项指标,存储冗余度计算方法为存储冗余度=(数据空间+校验空间)/数据空间,存储开销计算方式为存储开销=校验空间/数据空间。三副本中数据空间为1(一份数据),校验空间为2(两份冗余副本),那么三副本的存储效率就为33%,存储冗余度就是3,存储开销是200%,多副本出了冗余度高外,存储效率低,存储开销大。纠删码具有相对三副本,具有冗余度高,存储效率不低,同时存储开销不大的特点,但是纠删码会涉及编解码数据块。
  • 纠删码要达到三副本相同的容错能力(容忍2个节点失效,假设存储数据块D1和D2),对数据块进行编码,一共需要4个数据块,原始的是2个数据块,存储效率为50%。纠删码技术在高存储效率特点外还能显著降低网络中数据流量,因此纠删码用于集群存储能节约网络带宽和存储空间。纠删码起源于通信林领域,最后应用于存储系统中的数据检错和纠错的问题上,在编码参数为k+m(k个数据块,m个校验块)存储系统中,纠删码策略将文件数据分割为k个数据块,然后用编码算法得到k+m个编码块,通过这些数据分块和冗余块分布到不同的节点上,达到容错的目的。

总结

  • 相对三副本方式,纠删码具有存储效率高、冗余度高、存储开销低的特点,随着数据体量越来越大,存储成本是非常大的开销,这也是一个企业的成本。三副本在数据冗余度上能保证的非常好,但是需要非常大的存储成本、网络带宽等资源,这些都是企业不可忽视的成本。纠删码存储数据方式可以有效的解决存储成本和网络资源等问题,同时还能提高存储效率,唯一不足的就是需要编解码,这个问题可以从借助CPU中特殊指令进行EC编码效率提高,同时也可以借助FPGA把编码码算法固化到硬件上,这样节省CPU资源,让FPGA专门来做EC编解码的事情。
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-11-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 存储内核技术交流 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
有趣的纠删码(erasure code)
RAID 是 "Redundant Array of Independent Disk" 的缩写,中文意思是独立冗余磁盘阵列 是一种古老的磁盘冗余备份技术,也许你从未了解其中的原理,但肯定也听说过它的大名。简单地解释,就是将N台硬盘通过RAID Controller(分Hardware,Software)结合成虚拟单台大容量的硬盘使用,其特色是N台硬盘同时读取速度加快及提供容错性.
王磊-字节跳动
2021/05/30
12.1K0
什么是HDFS的纠删码
Fayson在前面的文章中介绍过CDH6,参考《Cloudera Enterprise 6正式发布》和《如何在Redhat7.4安装CDH6.0》。CDH6主要集成打包了Hadoop3,包括Hadoop3的一些新特性的官方支持,比如NameNode联邦,纠删码等。纠删码可以将HDFS的存储开销降低约50%,同时与三分本策略一样,还可以保证数据的可用性。本文Fayson主要介绍纠删码的工作原理。
Fayson
2018/11/16
5.5K0
​纠删码理论基础
纠删码数据容错原理 纠删码是一种前向纠删码。过程分为编码和解码。编码过程是将文件分割为固定大小的文件块,针对这些被分割的文件块编码为k个块(k个块中包括了k1个数据块和k2个校验块)。解码过程是将编码后的多个子块作为输入,经过解码可以恢复任何一个块的数据(不管是数据块还是校验块)。 采用纠删码技术来做数据容错,当磁盘出现故障,失效数据可以通过纠删码的校验链的构建机制来恢复数据,而不是纠正数据自身的错误,一般(k+r,k)纠删码存储开校门为r/k,相对副本纠删码具有低存储开销,但是纠删码涉及到的编解码
用户4700054
2022/08/17
1.4K0
​纠删码理论基础
顶会论文:纠删码存储系统中的投机性部分写技术
本文已被USENIX'17年度技术大会录用,此处为中文简译版。 阅读英文论文完整版请点击:Speculative Partial Writes in Erasure-Coded Systems 。 前言 多副本和纠删码(EC,Erasure Code)是存储系统中常见的两种数据可靠性方法。与多副本冗余不同,EC将m个原始数据块编码生成k个检验块,形成一个EC组,之后系统可最多容忍任意k个原始数据块或校验块损坏,都不会产生数据丢失。纠删码可将数据存储的冗余度降低50%以上,大大降低了存储成本,在许多大规模分
美团技术团队
2018/03/13
2.4K0
顶会论文:纠删码存储系统中的投机性部分写技术
Hadoop3.0时代,怎么能不懂EC纠删码技术?
根据云存储服务商Backblaze发布的2021年硬盘“质量报告”,现有存储硬件设备的可靠性无法完全保证,我们需要在软件层面通过一些机制来实现可靠存储。一个分布式软件的常用设计原则就是面向失效的设计。
个推
2022/05/27
1.5K0
Hadoop3.0时代,怎么能不懂EC纠删码技术?
纯干货 | 深入剖析 HDFS 3.x 新特性-纠删码
HDFS是一个高吞吐、高容错的分布式文件系统,但是HDFS在保证高容错的同时也带来了高昂的存储成本,比如有5T的数据存储在HDFS上,按照HDFS的默认3副本机制,将会占用15T的存储空间。那么有没有一种能达到和副本机制相同的容错能力但是能大幅度降低存储成本的机制呢,有,就是在HDFS 3.x 版本引入的纠删码机制。
五分钟学大数据
2021/04/01
1.8K0
详解HDFS3.x新特性-纠删码
EC(纠删码)是一种编码技术,在HDFS之前,这种编码技术在廉价磁盘冗余阵列(RAID)中应用最广泛(RAID介绍:大数据预备知识-存储磁盘、磁盘冗余阵列RAID介绍),RAID通过条带化技术实现EC,条带化技术就是一种自动将 I/O 的负载均衡到多个物理磁盘上的技术,原理就是将一块连续的数据分成很多小部分并把他们分别存储到不同磁盘上去,这就能使多个进程同时访问数据的多个不同部分而不会造成磁盘冲突(当多个进程同时访问一个磁盘时,可能会出现磁盘冲突),而且在需要对这种数据进行顺序访问的时候可以获得最大程度上的 I/O 并行能力,从而获得非常好的性能。在HDFS中,把连续的数据分成很多的小部分称为条带化单元,对于原始数据单元的每个条带单元,都会计算并存储一定数量的奇偶检验单元,计算的过程称为编码,可以通过基于剩余数据和奇偶校验单元的解码计算来恢复任何条带化单元上的错误。
五分钟学大数据
2021/01/15
1.6K0
RS 纠删码为什么可以提高分布式存储可靠性?| 原力计划
Erasure Code(EC),即纠删码,是一种前向错误纠正技术(Forward Error Correction,FEC,说明见后附录)。目前很多用在分布式存储来提高存储的可靠性。相比于多副本技术而言,纠删码以最小的数据冗余度获得更高的数据可靠性,但是它的编码方式比较复杂。
区块链大本营
2020/03/24
1.6K0
RS 纠删码为什么可以提高分布式存储可靠性?| 原力计划
应用AI芯片加速 Hadoop 3.0 纠删码的计算性能
在保证可靠性的前提下如何提高存储利用率已成为当前 DFS 应用的主要问题之一。
ethanzhang
2018/12/30
10.5K1
应用AI芯片加速 Hadoop 3.0 纠删码的计算性能
如何在CDH6.0中使用纠删码
Fayson在前面的文章中介绍过《什么是HDFS的纠删码》,当时详细介绍了什么是纠删码,纠删码的实现原理,以及一些Benchmark的结果比较。
Fayson
2018/11/16
4.2K0
分布式存储系统纠删码技术分享
海云捷迅云课堂专题,旨在秉承开源理念,为大家提供OpenStack技术原理与实践经验,该专题文章均由海云捷迅工程师理论与实践相结合总结而成,如大家有其他想要了解的信息,可留言给我们,我们会根据问题酌情回复。
海云捷迅
2020/07/08
4K0
分布式存储系统纠删码技术分享
分布式系统下的纠删码技术(一) — Erasure Code (EC)
近几个月主要参与一个分布式存储系统的纠删码部分(用于数据容错),纠删码在学术界出现比较早,现在ceph,微软的存储系统,Hadoop 3.0等都用了EC。文章会分为多篇,主要将Erasure Code,LRC, 以及相关的数学基础,作为学习总结。
全栈程序员站长
2022/11/17
3.2K0
分布式系统下的纠删码技术(一) — Erasure Code (EC)
纠删码集群需要关注的哪些
纠删码存储方案 按照存储单元单元连接方式,纠删码存储可以分为基于高速总线的磁盘阵列、LAN方式的集群、基于WAN/Internet方式的广域网存储系统。阵列码是一种特殊化的纠删码,采用高效率的异或运算 。国内大部分纠删码存储主要集中在磁盘阵列和阵列编码两个分支。纠删码存储集群的重要设计目标就是降低总体成本。 数据访问频度 国外大公司通过分析很多应用的I/O特征发现,数据访问的频度随着时间递减,这与数据信息生命周期概念保持了一致,即在数据创建的时候,访问数据的频度很高,这些数据称为热数据;经过一段时间后,这些
用户4700054
2022/08/17
5110
OPPO数据湖统一存储技术实践
OPPO是一家智能终端制造公司,有着数亿的终端用户,每天产生了大量文本、图片、音视频等非结构化数据。在保障数据连通性、实时性以及数据安全治理要求的前提下,如何低成本、高效率地充分挖掘数据价值,成为了拥有海量数据的公司的一大难题。目前业界的流行解决方案是数据湖,本文介绍的OPPO自研的数据湖存储CBFS在很大程度上可解决目前的痛点。
从大数据到人工智能
2022/04/23
6800
OPPO数据湖统一存储技术实践
Erasure-Code-擦除码-1-原理篇
本文链接: [https://blog.openacid.com/storage/ec-1/] 下载pdf: [Erasure-Code-擦除码-1-原理篇.pdf]
drdrxp
2022/04/28
5810
Erasure-Code-擦除码-1-原理篇
Ceph中的数据副本和纠删码的实现,以及它们对数据可靠性的影响
在Ceph中,数据副本是通过分布式存储集群的方式实现的。当数据写入Ceph存储集群时,Ceph会将数据划分为若干对象(Object),并根据设定的复制策略和规则,在不同的存储节点上生成副本。
一凡sir
2023/12/20
7880
Ceph中的数据副本和纠删码的实现,以及它们对数据可靠性的影响
0460-HDFS纠删码的机架感知
Fayson在前面的文章中对Hadoop3的新特性之一纠删码进行过介绍,参考《什么是HDFS的纠删码》,后面又对纠删码的使用进行了实操,参考《如何在CDH6.0中使用纠删码》。但我们知道,在HDFS的三副本年代,Hadoop为了最大限度保证数据可用性,HDFS本身还有一个机架感知策略。这里先温习一下:
Fayson
2018/12/17
1.2K0
Erasure-Code-擦除码-3-极限篇
本文链接: [https://blog.openacid.com/storage/ec-3/]
drdrxp
2022/04/28
7980
Erasure-Code-擦除码-3-极限篇
CubeFS 进入 CNCF 孵化阶段,国产分布式存储的新里程碑!| Q推荐
CubeFS 是国内首个云原生开源分布式存储产品,2019 年开源并捐赠托管至云原生计算基金会 (CNCF),2020 年 10 月 OPPO 开始主导 CubeFS 社区运营与版本迭代,累计发布 7 个 release 版本。在 OPPO 的全力推进下,CubeFS 于 2022 年 6 月进入 CNCF 孵化阶段。 本文,我们与 CubeFS Maintainer OPPO 的何小春进行了对话,共同探讨 CubeFS 的技术演进及云原生存储技术的发展方向。 1 云原生存储技术“越来越分布式” 随着云
深度学习与Python
2023/03/29
1.1K0
CubeFS 进入 CNCF 孵化阶段,国产分布式存储的新里程碑!| Q推荐
专有云TCE COS新一代存储引擎YottaStore介绍
对象存储(Cloud Object Storage,COS)是腾讯专有云提供的一种存储海量文件的分布式存储服务,用户可通过网络随时存储和查看数据。所有用户通过 COS 都能使用具备高扩展性、低成本、高可靠和安全的数据存储服务。
腾讯专有云
2022/06/24
3.3K0
专有云TCE COS新一代存储引擎YottaStore介绍
相关推荐
有趣的纠删码(erasure code)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档