开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

有多少OSD关闭，Ceph将丢失数据

OSD（Object Storage Device）是Ceph存储集群中负责存储数据的物理设备。在Ceph中，如果关闭了太多的OSD，就有可能导致数据丢失。

Ceph是一个开源的分布式存储系统，它使用CRUSH算法将数据分布到多个OSD上进行冗余存储，以确保数据的可靠性和高可用性。每个OSD都存储着一部分数据，并负责处理相关的数据读写请求。

当关闭过多的OSD时，Ceph集群将无法维持正常的数据冗余和复制。Ceph集群通过数据分片和复制算法来保证数据的安全性和可靠性，因此关闭过多的OSD会导致无法完成数据的正常分布和复制，从而可能会造成数据丢失。

具体来说，关闭过多的OSD会导致以下问题：

数据冗余性降低：Ceph集群依赖于数据在不同的OSD上的冗余复制来保证数据的可靠性。当关闭过多的OSD时，数据的冗余性将受到影响，如果发生了硬盘故障或其他故障，可能无法恢复丢失的数据。
数据可用性下降：Ceph集群通过将数据分布到多个OSD上来提高数据的可用性。关闭过多的OSD会导致数据集中存储在较少的OSD上，这可能会增加数据的访问延迟，并降低整个系统的吞吐量。

因此，为了确保数据的安全性和可靠性，建议不要关闭过多的OSD。具体要根据Ceph集群的规模、硬件条件和性能要求等因素来决定关闭的OSD数量。建议在Ceph集群运行期间遵循Ceph官方文档和最佳实践来配置和管理OSD。

有关Ceph的详细信息和腾讯云相关产品，您可以参考以下链接：

Ceph官方网站：https://ceph.io/
腾讯云对象存储 CFS：https://cloud.tencent.com/product/cfs
腾讯云弹性文件存储 EFS：https://cloud.tencent.com/product/efs
腾讯云云硬盘 CBS：https://cloud.tencent.com/product/cbs
腾讯云云服务器 CVM：https://cloud.tencent.com/product/cvm

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

《大话 Ceph 》之 PG 那点事儿

这就是 Ceph 的多副本的基础，将一份数据保存成多个副本，按照一定规则分布在各个OSD中，而多副本的数据的一个特点就是，他们都保存在同名的 PG 下面，也就是同名的目录下。...降级就是在发生了一些故障比如OSD挂掉之后，Ceph 将这个 OSD 上的所有 PG 标记为 degraded，但是此时的集群还是可以正常读写数据的，降级的 PG 只是相当于小感冒而已，并不是严重的问题...2、Peered 那么，什么才是PG的大病呢，peered 算是一个，刚刚我们关闭了osd.4，集群里还活着两个PG 0.44，现在我们关闭osd.7，查看下0.44的状态： [root@ceph-3...还是可以将这份仅存的数据恢复到别的OSD上的。...，丢失的数据是要从仅存的OSD上回填到新的OSD上的，处于回填状态的PG就会被标记为backfilling。

9.2K8 3

ceph运维操作

这样的设计效果，猜测有可能是因为如果pool池直接整体恢复，会导致整个ceph集群数据混乱，毕竟集群中数据是分布式存放的！...Inactive (不活跃) 归置组不能处理读写，因为它们在等待一个有最新数据的 OSD 复活且进入集群。...pg ，可以根据需要过滤状态 ceph pg ls-by-primary osd.3 clean 13、恢复一个丢失的pg 如果集群丢了一个或多个对象，而且必须放弃搜索这些数据，你就要把未找到的对象标记为丢失...，down的osd会很快自恢复正常,所以需要先关闭守护进程 ssh root@osd01 systemctl stop ceph-osd@0 ceph osd down 0 5.2 将坏盘踢出集群...root@osd01 systemctl stop ceph-osd@0 # 一定要到具体的节点上关闭 # 2、down掉osd ceph osd down 0 # 3、将osd.0移出集群，集群会自动同步数据

3.2K1 1

Ceph组件的状态

Ceph 整体状态查看 ceph -s #ceph状态是否正常，及配置运行状态 ceph -w #实时查看数据写入情况 ceph health detail #如果集群有问题，会详细列出具体的pg或者...需要执行集群关闭out检测命令： ceph osd set noout 这样在停止的OSD中的PG会变为降级态。...关闭 osd.0的进程 systemctl stop ceph-osd@0 2....例如有3个副本的校验和，有1个不同，很容易猜出应该修复的错误副本（从其他副本恢复），但是当有3个不同的校验和或者一些比特错误，我们不能武断的说哪个是好的。这不是一个端到端的数据修正检查。...下面的例子说明这是怎么发生的，有1个PG他映射的的OSD是 1和2： 1.OSD 1挂掉 2.OSD 2单独处理一些请求 3.OSD 1运行 4.OSD 1和2重新peering，1上丢失的对象在队列中等待恢复

1.3K2 0

Ceph实现数据的不拆分

一个集群数据丢失可以从多方面去看发生丢失数据的事件，这个来说，出现这个事件的概率是一致的，同等硬件情况下没有谁的系统能够说在两副本情况下把这个出现坏盘概率做的比其他系统更低发生坏盘事件以后，数据丢失波及的范围...，这个就是那个朋友提出的一个观点，对于Vsan来说因为文件的不拆分，也就是在丢了的情况下，只是局部数据的丢失，而ceph的数据因为拆分到整个集群，基本上说就是全军覆没了，这一点没有什么争议一般来说...add-bucket host2-d host ceph osd crush add-bucket host3-d host 将虚拟主机挪到虚拟根里面 ceph osd crush move host1...，这个改动应该属于可改的分析按上面的进行处理以后，那么再出现同时坏了两个盘的情况下，数据丢失的波及范围跟Vsan已经是一致了，因为数据打散也只是在这个三个里面打散了，真的出现磁盘损坏波及的也是局部的数据了...总结本篇是提供了一种可能性，在实际运行环境当中，可以根据自己的环境进行设计，设计的方法就是，假设一个数据的全部副本都丢了的情况，允许的数据波及范围是多少，如果拆分两份就是波及二分之一，我的测试环境是分成了四个条带

6992 0

初识ceph

存储集群客户端向Ceph监视器索取集群运行图的最新副本。 Ceph OSD守护进程检查自身状态、以及其它OSD的状态，并报告给监视器们。同时Ceph OSD守护进程负责将数据存储为扁平的对象。...Ceph存储系统有存储池的概念，它是存储对象的逻辑分区。每个存储池里都有很多归置组PG（Placement Group），CRUSH算法动态地将PG映射到实际的OSD。...ceph_data_op.png 从上面的流程可以看出与glusterfs相比，存储池与OSD之间有PG这么一个中间层。...随着OSD数量的增加，一个存储池PG的数量设置将非常重要，它显著地影响着集群的行为、以及出错时的数据持久性（即灾难性事件导致数据丢失的概率）。官方还提供了一个工具pgcalc。...Hostname ceph-client User cephop " > ~/.ssh/config 禁用ssh的requiretty特性设置网络接口开机自启动关闭防火墙关闭selinux

1K6 0

Ceph亚太峰会RGW议题分享

RGW的index数据以omap形式存储在OSD所在节点的leveldb中，当单个bucket存储的Object数量高达百万数量级的时候，deep-scrub和bucket list一类的操作将极大的消耗磁盘资源...，导致对应OSD出现异常，如果不对bucket的index进行shard切片操作(shard切片实现了将单个bucket index的LevelDB实例水平切分到多个OSD上)，数据量大了以后很容易出事...临时解决方案临时方法1:通过关闭整个集群或者独立的pool的deep-scrub去实现对集群稳定性的提升。...最好不要听PPT作者的去进行遍历，很容易雪上加霜)，按每个key占用200byte方式统计每个omap对象的容量大小，当超过20MB的时候去手工进行reshard操作，注意reshard操作过程中bucket有元数据丢失的风险...jewel之前的版本LevelDB如果硬件条件允许可以考虑切换到rocksdb同时考虑在业务高峰期关闭deep-scrub。

2.5K3 0

【问题修复】osd自杀问题跟踪

RGW的index数据以omap形式存储在OSD所在节点的leveldb中，当单个bucket存储的Object数量高达百万数量级的时候，deep-scrub和bucket list一类的操作将极大的消耗磁盘资源...，导致对应OSD出现异常，如果不对bucket的index进行shard切片操作(shard切片实现了将单个bucket index的LevelDB实例水平切分到多个OSD上)，数据量大了以后很容易出事...修复方式 3.1 临时解决方案关闭集群scrub, deep-scrub提升集群稳定性 $ ceph osd set noscrub $ ceph osd set nodeep-scrub 调高timeout...OSD的情况下，可以对OSD进行compact操作，推荐在ceph 0.94.6以上版本，低于这个版本有bug。...仅支持ceph 0.94.10以上版本，需要停bucket读写，有数据丢失风险，慎重使用。

1.9K2 0

《大话 Ceph 》之 CephX 那点事儿

OSD OSD 在启动的时候，首先要log_to_monitors，也就是拿着自己的账户密码去登陆集群，这个账户密码在 Monitor 的数据库里有记录，所以如果互相匹配，那么OSD就可以正常启动，否则...这时候能否将所有的秘钥文件恢复出来吗？答案是：可以！在管理秘钥方面，Ceph 做了一个比较有趣的设定：所有除了 mon.用户的账户密码都保存在 MON 的数据库leveldb中，但是 mon..../ceph.client.admin.keyring没有读权限，将秘钥 chmod a+r之后，就能正常读取数据了。...cephx -> none 在关闭 CephX 功能时，要遵循一定的顺序：关闭：重启MON -> 重启OSD 开启：重启MON -> 重启OSD 如果关闭CephX后未重启OSD，过一段时间，OSD...最后通过秘钥丢失的例子来将理论应用到实际生产环境中，使大家对 CephX 的使用游刃有余。

7.8K4 1

Ceph 架构及性能优化

4、SSD SSD在ceph中的使用可以有几种架构 a、ssd作为Journal b、ssd作为高速ssd pool(需要更改crushmap) c、ssd做为tier pool 5、BIOS a、开启...b、关闭节能设置，可有一定的性能提升。 c、NUMA思路就是将内存和CPU分割为多个区域，每个区域叫做NODE,然后将NODE高速互联。...解决的方案，一种是通过BIOS关闭NUMA，另外一种就是通过cgroup将ceph-osd进程与某一个CPU Core以及同一NODE下的内存进行绑定。...log threshold = 50 #默认值5，#一次显示多少操作的log osd crush chooseleaf type = 0 #默认值为1，CRUSH规则用到chooseleaf...Total PGs = (Total_number_of_OSD * 100) / max_replication_count 例：有100个osd，2副本，5个pool Total PGs =100

8246 0

RGW Bucket Shard设计与优化-中

= 300 #如果出现scrub导致的op超时可以适当增加这个 2 压缩OSD的OMAP目录在可以停OSD的情况下，可以对OSD进行compact操作，推荐在ceph 0.94.6以上版本，低于这个版本有...停OSD服务 systemctl stop ceph-osd@ 或者 /etc/init.d/ceph stop osd. 3....启动osd服务 systemctl start ceph-osd@ 或 /etc/init.d/ceph start osd. 6....的shard数量，实现index数据的重新分布。...仅支持ceph 0.94.10以上版本，需要停bucket读写，有数据丢失风险，慎重使用，出了问题本人概不负责。

4.2K6 0

ceph分布式存储-常见MON故障处理

Mon 正常关闭时，管理套接字会被删除；如果 Mon 不运行了、但管理套接字还存在，就说明 Mon 不是正常关闭的。...在这些状况下，你有两种可行的解决方法：销毁 monitor 然后新建只有在你确定不会丢失保存在该 monitor 上的数据时，你才能够采用这个方法。...请谨记，销毁一个 monitor 时，如果没有其上数据的备份，可能会丢失数据。给 monitor 手动注入 monmap 通常是最安全的做法。...未经测试而修改该值，尽管没有丢失数据的风险，但仍可能会对 monitors 的稳定性和集群的健康造成不可预知的影响。如何知道是否存在时钟偏移？...用 ceph-monstore-tool 可以导入 client.admin 的 keyring 。但是 MDS 和其他 keyrings 在被恢复的那个 monitor 数据库中就会丢失。

2.4K2 0

Ceph数据恢复初探

而本文我们将讨论的是Ceph RADOS核心层面的数据恢复逻辑。...不过在故障发生后，Ceph需要及时做故障恢复，将丢失的数据副本补全，以维系持续的数据高可靠性。因此多副本机制是分布式存储系统的核心机制之一，它带来了数据高可靠性，也提高了数据可用性。...Ceph恢复数据的时候，是拷贝整个4M对象，还是只恢复有差异的数据，这两种方式直接影响网络间传输的数据量。数据恢复是否影响用户的线上业务，Ceph是如何控制和降低这个影响的？...MON集群管理着整个Ceph集群的成员状态，将OSD节点的状态信息存放在OSDMap中，OSD节点定期向MON和对等OSD（Peer OSD）发送心跳包，声明自己处于在线状态。...首先是减少对资源的消耗：在断电重启这类故障中，Ceph可以只恢复有变化的数据，从而减少数据恢复量；另一方面，MON不会主动向所有OSD推送集群状态，而是采用OSD主动获取最新OSDMap的方式防止大规模集群发生故障场景下产生突发流量

2.3K3 0

SDNLAB技术分享（十七）：Ceph在云英的实践

依据我们的经验，可以在以下几个方面做Ceph的性能调优： 1). BIOS设置：开启CPU的Hyper-Threading 关闭CPU节能关闭NUMA 2)....相关 osd上PG总数限制 osd op threads osd recovery threads 7). crushmap优化给osd划分合理的pools 故障域切分，降低数据丢失概率 6....A5：200个OSD对应200多块盘，Ceph推荐的也是一块SATA盘对应一个OSD，SSD盘就不一定是这个对应关系了，这取决于SSD盘的性能。 Q6：i/o能达到多少M连续的文件实测完？...最多支持多少块硬盘支持混插不？支持异地双活不？ A6：Ceph系统IO的吞吐量跟系统的规模有关系，我们最后得到的性能约为所有OSD磁盘性能/备份个数后的40% — 60%左右。...总之，Ceph的优化可以从client端发起IO到OSD写下数据这个path上分析后进行优化。 Q9：pid个数和osd有什么样关系？比如说我有两块osd，那么建议将pid设置成4。

1.8K6 0

ceph分布式存储-常见 PG 故障处理

让 Ceph 无论如何都继续： ceph osd lost 1 恢复将继续进行。...下例展示了这种情况是如何发生的，一个 PG 的数据存储在 ceph-osd 1 和 2 上： 1 挂了 2 独自处理一些写动作 1 起来了 1 和 2 重新互联， 1 上面丢失的对象加入队列准备恢复新对象还未拷贝完...ceph pg 2.5 mark_unfound_lost revert|delete 上述最后一个参数告诉集群应如何处理丢失的对象。 delete 选项将导致完全删除它们。...，上面的输出告诉我们它最后由 osd.0 和 osd.2 管理，重启这些 ceph-osd 将恢复之（可以假定还有其它的很多 PG 也会进行恢复）。...3.6 只有几个 OSD 接收数据如果你的集群有很多节点，但只有其中几个接收数据，检查下存储池里的 PG 数量。因为 PG 是映射到多个 OSD 的，较少的 PG 将不能均衡地分布于整个集群。

3.3K3 0

Ceph配置参数（一）

OSD Daemon中创建PG所间隔的秒数：mon pg create interval 等待多少秒PG可被认为被卡主：mon pg stuck threshold Ceph OSD Daemon对...PG的标志位位数：osd pg bits Ceph OSD Daemon对PGP的标志位位数：osd pgp bits 注：pg和pgp大部分情况是一样的，但是一个pg分裂成多个时就不一样了 CRUSH...每隔一段时间， Ceph OSD Daemon停止写操作，将journal和文件系统同步，删除一部分journal使得空间能够被再次利用。...IPV6的IP：ms bind ipv6 堆栈大小的debug设置（不配置）：ms rwthread stack bytes 等待多少秒关闭空闲连接：ms tcp read timeout debug设置...有些文件系统对属性的长度有限制，比如ext4限制属性长度不超过4KB，如果没有长度限制，ceph的扩展属性也是存储在底层文件系统中的，如果超过了长度限制，则是存主一个 key/value数据库中（aka

2.1K1 0

Ceph 分布式存储使用指南

架构 2.1 Ceph 核心组件及概念介绍 Monitor 一个 Ceph 集群需要多个 Monitor 组成的小集群，它们通过 Paxos 同步数据，用来保存 OSD 的元数据。...OSD OSD 全称 Object Storage Device，也就是负责响应客户端请求返回具体数据的进程。一个 Ceph 集群一般都有很多个 OSD。...有很多选项，我只挑目前我用得到的来说： $ ceph osd pool create test_data $ ceph osd pool create test_metadata 32 321.2....首先要打开允许删除pool的开关，然后试着删除发现不让删，要重复两遍pool的名字再写保证书再删除就可以了，删除完以后记得把允许删除关闭，防止误删除后数据丢失。...后来我发现是两个原因导致的：硬盘自身原因，ceph对写入的硬盘是没有操作系统缓存的，开始我是用dd测试硬盘速度的时候没关缓存，得到了200m/s的惊人写入速度，后来关掉了缓存测了一下，实际速度差不了多少

2.3K2 0

ceph配置缓存池

工作原理：当客户端发出读请求时，首先检查缓存池中是否有该数据。如果缓存池中有数据，则直接从缓存池读取，速度较快。...将缓存池与后端存储池关联这个命令用于将客户端的数据读写请求重新定向到缓存池上 ceph osd tier set-overlay libvirt-pool cache_pool 4....如果没有现成的规则，可以创建一个新的 CRUSH 规则：查看现有的 CRUSH 规则： ceph osd crush rule dump 创建新的 CRUSH 规则（假设已经有 SSD 类型的设备标记...删除只读缓存由于只读缓存没有修改的数据，因此可以禁用并删除它而不会丢失缓存中对象的任何最近更改。...将缓存模式更改为以none禁用它： ceph osd tier cache-mode cache_pool none 解除与数据池的绑定 ceph osd tier remove libvirt-pool

2751 0

linux ceph原理及搭建

Ceph相比其它存储的优势点在于它不单单是存储，同时还充分利用了存储节点上的计算能力，在存储每一个数据时，都会通过计算得出该数据存储的位置，尽量将数据分布均衡，同时由于Ceph的良好设计，采用了CRUSH...4 Ceph数据分布算法在分布式存储系统中比较关注的一点是如何使得数据能够分布得更加均衡，常见的数据分布算法有一致性Hash和Ceph的Crush算法。...通过实验总结：（1）PG是指定存储池存储对象的目录有多少个，PGP是存储池PG的OSD分布组合个数（2）PG的增加会引起PG内的数据进行分裂，分裂相同的OSD上新生成的PG当中（3）PGP的增加会引起部分...Cluster Map里的内容信息包括存储集群中可用的存储资源及其相互之间的空间层次关系，比如集群中有多少个支架，每个支架中有多少个服务器，每个服务器有多少块磁盘用以OSD等。...数据分布策略是指可以通过Ceph管理者通过配置信息指定数据分布的一些特点，比如管理者配置的故障域是Host，也就意味着当有一台Host起不来时，数据能够不丢失，CRUSH可以通过将每个pg的主从副本分别存放在不同

3.7K1 0

Ceph缓冲池配置

要实现缓冲池技术，首先需要将整个存储系统按照存储介质的性能分为前端高速缓冲池和后端低速存储池，使用特定算法将数据写入和读取流程进行适当的调整，将访问次数比较频繁的热数据缓存储在前端高速缓冲池中（对应热数据上浮...ceph osd tier cache-mode ssd-pool writeback 3）将客户端访问从sata-pool切换到ssd-pool。...ceph osd pool set ssd-pool cache_min_evict_age 1800 缓冲池的关闭 1）删除缓冲池。删除一个只读缓冲池。...因为只读缓冲池没有包含修改的数据内容，所以可以直接关闭并移除。2）改变缓冲池读写模式为none，即关闭缓冲池。...因为读写缓冲池包含修改的数据内容，为了不丢失数据，应进行如下操作。1）把缓冲池读写模式变为forward，目的是让修改过的数据刷写到慢存储。

1K1 0

处理stale的pg

前言在某些场景下Ceph集群会出现stale的情况，也就是ceph集群PG的僵死状态，这个状态实际上是无法处理新的请求了，新的请求过来只会block，那么我们如何去恢复环境实践过程首先模拟stale...环境，这个比较好模拟设置副本2，然后同时关闭两个OSD（不同故障域上），然后删除这两个OSD 集群这个时候就会出现stale的情况了，因为两份数据都丢了，在一些环境下，数据本身就是临时的或者不是那么重要的...，比如存储日志，这样的环境下，只需要快速的恢复环境即可，而不担心数据的丢失处理过程首先用ceph pg dump|grep stale 找出所有的stale的pg 然后用 ceph force_create_pg...pg_id 如果做到这里，可以看到之前的stale的状态的PG，现在已经是creating状态的了，这个时候一个关键的步骤需要做下：重启整个集群的OSD 在重启完成了以后，集群的状态就会恢复正常了，...也能够正常的写入新的数据了，对于老的数据，做下清理即可

1K2 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭