log segments, rebuild index;
解决: 应该是stop时, 没有优雅的shutdown, 直接 kill -9导致;
深究:
停止broker服务请使用kafka本身提供的脚本优雅...shutdown;
在shutdown broker时确保相应的zk集群是可用状态, 否则可能无法优雅地shutdown broker...., 上去查看是__consumer_offsets的一个partition占用了几十G的空间
日志分析: 之前的日志被清理了,没有有效的日志了.为了debug这个问题,我把这个partition下的index...broker 如果部署在同一台机器上, 请尽量将各自的data和log路径放在不同的磁盘, 避免磁盘io的竞争;
kafka对zk的波动很敏感, 因此zk最好是单独部署,保证其稳定运行;
对zk不要有大量的写入操作...在启动zk时可以加上zookeeper.forceSync=no, 降低写盘IO, 这个配置有其副作用, 在线上使用时还需慎重;
监控很重要
实时监控: 在集群上建立一个专门的topic, 监控程序实时的写入数据