开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >专栏 >处理stale的pg

处理stale的pg

用户2772802

发布于 2018-08-06 10:15:21

发布于 2018-08-06 10:15:21

1.1K0

举报

文章被收录于专栏：磨磨谈磨磨谈

前言

在某些场景下Ceph集群会出现stale的情况，也就是ceph集群PG的僵死状态，这个状态实际上是无法处理新的请求了，新的请求过来只会block，那么我们如何去恢复环境

实践过程

首先模拟stale环境，这个比较好模拟

设置副本2，然后同时关闭两个OSD（不同故障域上），然后删除这两个OSD

集群这个时候就会出现stale的情况了，因为两份数据都丢了，在一些环境下，数据本身就是临时的或者不是那么重要的，比如存储日志，这样的环境下，只需要快速的恢复环境即可，而不担心数据的丢失

处理过程

首先用ceph pg dump|grep stale 找出所有的stale的pg
然后用 ceph force_create_pg pg_id

如果做到这里，可以看到之前的stale的状态的PG，现在已经是creating状态的了，这个时候一个关键的步骤需要做下：

重启整个集群的OSD

在重启完成了以后，集群的状态就会恢复正常了，也能够正常的写入新的数据了，对于老的数据，做下清理即可

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2016-11-14，如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自磨磨谈微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

评论

登录后参与评论

暂无评论

编辑精选文章

换一批

万字详解高可用架构设计

Go 开发者必备：Protocol Buffers 入门指南

10分钟带你彻底搞懂分布式链路跟踪

多租户的 4 种常用方案

亿级月活的社交 APP，陌陌如何做到 3 分钟定位故障？

60页PPT全解：DeepSeek系列论文技术要点整理

分布式编程算法

ceph是以对象的形式存储数据的，但是对象的存储并不会直接存储进OSD中，因为对象的size很小，在一个大规模的集群中可能有几百到几千万个对象。这么多对象光是遍历寻址，速度都是很缓慢的，也不可能在对象这一级追踪位置；并且如果将对象直接通过某种固定映射的哈希算法映射到osd上，当这个osd损坏时，对象无法自动迁移至其他osd上面。为了解决这些问题，ceph引入了归置组的概念，即PG。

summerking

2022/09/16

1.3K0

分布式存储Ceph之PG状态详解

io min set size

继上次分享的《Ceph介绍及原理架构分享》，这次主要来分享Ceph中的PG各种状态详解，PG是最复杂和难于理解的概念之一，PG的复杂如下：

Lucien168

2020/07/20

3.6K0

ceph分布式存储-常见 PG 故障处理

创建一个新集群后，PG 的状态一直处于 active ， active + remapped 或 active + degraded 状态，而无法达到 active + clean 状态，那很可能是你的配置有问题。

Lucien168

2020/07/20

3.9K0

Ceph组件的状态

存储 ntp 分布式

client 无法链接mon的可能原因 1.连通性和防火墙规则。在MON主机上修改允许TCP 端口6789的访问。 2.磁盘空间。每个MON主机上必须有超过5%的空闲磁盘空间使MON和levelDB数据库正常工作。 3.MON没有工作或者离开选举，检查如上命令输出结果中的quorum_status和mon_status或者ceph -s 的输出来确定失败的MON进程，尝试重启或者部署一个新的来替代它。

院长技术

2020/06/11

1.4K0

ceph运维操作

如果是在admin节点修改的ceph.conf，想推送到所有其他节点，则需要执行下述命令

匿名用户的日记

2022/01/05

3.5K0

《大话 Ceph 》之 PG 那点事儿

腾讯云TStack

2017/11/06

9.7K8

Ceph分布式存储日常运维管理手册

nearfull osd(s) or pool(s) nearfull 此时说明部分osd的存储已经超过阈值，mon会监控ceph集群中OSD空间使用情况。如果要消除WARN,可以修改这两个参数，提高阈值，但是通过实践发现并不能解决问题，可以通过观察osd的数据分布情况来分析原因。

民工哥

2020/09/15

2.6K0

Ceph分布式存储日常运维管理手册

ceph 运维操作-PG

PG全称Placement Grouops，是一个逻辑的概念，一个PG包含多个OSD。引入PG这一层其实是为了更好的分配数据和定位数据。

Lucien168

2020/07/20

1.2K0

Cep PG 和 OSD 状态分析

数据迁移迁移分布式

作为一个成熟、可靠的分布式存储框架，Ceph集群中的各个组件都具备很强的自运维能力，这样的能力都是依托于 Ceph 优秀的故障检测机制。这篇文章主要分析一下集群状态的变迁。

thierryzhou

2022/11/13

1.1K0

Cep PG 和 OSD 状态分析

Ceph用户邮件列表Vol45-Issue1

这个问题是作者一个集群中(ceph 0.94.5)出现了一个磁盘损坏以后造成了一些对象的丢失，然后在做了一定的处理以后，集群状态已经正常了，但是还是新的请求会出现block的状态，这个情况下如何处理才能让集群正常，作者贴出了pg dump，ceph -s,ceph osd dump相关信息，当出现异常的时候，需要人协助的时候，应该提供这些信息方便其他人定位问题，最后这个问题作者自己给出了自己的解决办法，出现的时候影响是当时的流量只有正常情况下的10%了，影响还是很大的

用户2772802

2018/08/06

6290

ceph分布式存储学习指南实战

node.js 分布式

1、安装完虚拟机后，更改名字，设置/etc/hosts文件 2、ceph-deploy工具部署

用户5760343

2022/05/14

7740

ceph分布式存储学习指南实战

ceph分布式存储-PG和PGP的区别

分布式腾讯云测试服务

以上是来自邮件列表的 Karan Singh 的PG和PGP的相关解释，他也是 Learning Ceph 和 Ceph Cookbook的作者，以上的解释没有问题，我们来看下具体在集群里面具体作用

Lucien168

2020/07/20

2.1K0

从传统运维到云运维演进历程之软件定义存储（六）完结

分布式 node.js 运维开源 api

回到最初的Ceph运维工程师的问题，本系列讲述的是传统运维向新一代云运维转型之软件定义存储部分的转型，运维是企业业务系统从规划、设计、实施、交付到运维的最后一个步骤，也是重要的步骤。运维小哥最初的梦想搭建一个Ceph存储集群，对接云服务，底层存储实现高可用的数据访问架构。其中运维小哥经历了硬件选型、部署、调优、测试、高可用架构设计等的一系列转型的关卡学习，终于就要到最后的应用上线了。但是往往在生产环境中除了无单点、高可用的架构设计之外还需要平时做一些预案演练，比如：服务器断电、拔磁盘等问题，避免出现灾难故障影响业务正常运行。

DevinGeng

2019/04/09

8190

从传统运维到云运维演进历程之软件定义存储（六）完结

Ceph recover的速度控制

磁盘损坏对于一个大集群来说，可以说是必然发生的事情，即使再小的概率，磁盘量上去，总会坏那么几块盘，这个时候就会触发内部的修复过程，修复就是让不满足副本要求的PG，恢复到满足的情况

用户2772802

2018/08/06

2.6K0

Ceph recover的速度控制

Ceph数据恢复初探

分布式对象存储

大家好，我是焱融科技的研发猿小焱，本文由我和大家一起探讨下Ceph数据恢复相关的知识。

焱融科技

2020/03/10

2.5K0

kubernetes（十九） Ceph存储入门

分布式对象存储文件存储存储 node.js

Ceph是当前非常流行的开源分布式存储系统，具有高扩展性、高性能、高可靠性等优点，同时提供块存储服务(rbd)、对象存储服务(rgw)以及文件系统存储服务(cephfs)，Ceph在存储的时候充分利用存储节点的计算能力，在存储每一个数据时都会通过计算得出该数据的位置，尽量的分布均衡。目前也是OpenStack的主流后端存储，随着OpenStack在云计算领域的广泛使用，ceph也变得更加炙手可热。国内目前使用ceph搭建分布式存储系统较为成功的企业有华为，xsky，杉岩数据，中兴，华三，浪潮，中移动等。

alexhuiwang

2020/09/23

4K0

kubernetes（十九） Ceph存储入门

《大话 Ceph 》之 CephX 那点事儿

腾讯云TStack

2017/09/27

8.1K1

《大话 Ceph 》之 CephX 那点事儿

ceph运维常用指令

分布式 node.js

[root@node1 ~]# ceph-deploy purgedata node1

IT运维技术圈

2022/06/26

1.8K0

Ceph分布式存储工作原理及部署介绍

文件存储存储数据库数据迁移数据结构

存储根据其类型，可分为块存储，对象存储和文件存储。在主流的分布式存储技术中，HDFS/GPFS/GFS属于文件存储，Swift属于对象存储，而Ceph可支持块存储、对象存储和文件存储，故称为统一存储。

洗尽了浮华

2022/03/28

8.4K0

Ceph分布式存储工作原理及部署介绍

Ceph 集群整体迁移方案

场景介绍：在我们的IDC中，存在着运行了3-6年的Ceph集群的服务器，这些服务器性能和容量等都已经无法满足当前业务的需求，在购入一批高性能机器后，希望将旧机器上的集群整体迁移到新机器上，当然，是保证业务不中断的前提下，再将旧机器下架回收。本文就介绍了一种实现业务不中断的数据迁移方案，并已经在多个生产环境执行。本文的环境均为：Openstack+Ceph 运行虚拟机的场景，即主要使用RBD，不包含RGW，MDS。虚机的系统盘(Nova)，云硬盘(Cinder)，镜像盘(Glance)的块均保存在共享存储C

腾讯云TStack

2018/04/02

4.2K0

相关推荐

PG详解

更多 >

LV.0

这个人很懒，什么都没有留下～

作者相关精选

换一批

目录

前言

实践过程
- 处理过程

加入讨论

的问答专区 >

架构师之路0

1技术VP擅长5个领域

相关课程

一站式学习中心 >

AI驱动的TDSQL-Cserverless实战营

云原生数据库 TDSQL-C

数字化IT从业者知识体系

微信小程序应用实践_《锋运票务系统》

云托管 CloudBase Run

Serverless 容器服务

云数据库 MySQL