offset到这个partition, 没有控制好,导致每秒能提交8,9MByte上来;
GC问题
现象: 集群报警某台broker down, 在zk上无此broker节点的注册信息
日志分析:
看...可以留言给我,谢谢~
补充: 关于GC这个找到了庄博士的这个视频,可以参考下OS 造成的长时间非典型 JVM GC 停顿:深度分析和解决
GC慢,引起的STW会导致很多问题, 我们还遇到了他导致的OOM..., 因此zk最好是单独部署,保证其稳定运行;
对zk不要有大量的写入操作, zk的写操作最后都会转移动leader上zk;
如果采用了zk和broker是混部的方式,并且还有大量的zk写入操作,比如使用较旧版本的...storm,其提交offset到zk上, 导致zk的IO较高, 在启动zk时可以加上zookeeper.forceSync=no, 降低写盘IO, 这个配置有其副作用, 在线上使用时还需慎重;
监控很重要...Request时并未处理这个异常,导致这个异常被其外层的try...catch...处理, 直接进入了下一轮的selector.poll(300), 而在这个selector.poll(300)中会清理之前所有的接收到的