记录一个乌龙事件,今天给一个 v12.2.13 的测试集群升级到 v14.2.11 的时候,发现其中一个节点的 osd 进程一直报错,然后 ceph -s
也一直给出 WARNING 的信息,one host down
,查看 osd 的日志,报一个莫名其妙的 invalid arguments。
这类问题,其实开一下 debug 日志,看下源码应该可以定位到的,但是感觉要花很多时间,所以放弃了,一翻 google 之后也没找到合理的解决方法。
最后,对比了一下三台测试集群的物理机上的 ceph.conf,果然发现了问题…
原因主要是 down 的一台物理机的 ceph.conf 多配置了一些文件系统的配置,同步三台机器的 ceph.conf 之后就解决了。可能是因为测试集群,所以 ceph.conf