问题描述及原因:
当前处于 Active 状态的 ResourceManager 转成 StandBy 状态,原先处于 StandBy 状态的 ResourceManager 转成 Active 状态
Yarn ResourceManager 主备切换 / 持续主备切换
可能影响:
处理建议:
场景1 新增或变革参数无效
YARN ResourceManager日志搜索关键字 "Error" 或新变更参数,若存在则需要参考社区官网参数配置
场景2 RM多任务并发运行出现频繁主备切换
YARN ResourceManager的fullGC时间过长,RM与ZK连接频繁超时导致RM频繁主备切换。NM需要与RM响应任务状态,即定时心跳响应,当NM节点数量非常大且任务数量非常大会给Resourcemanager带来非常大的压力导致fullGC,fullGC过长引起RM与ZK的响应失败,从而出现频繁主备切换。建议调整RM内存大小/任务错峰提交。
场景3 UI响应慢历史任务查询多
参数yarn.resourcemanager.max-completed-applications(RM保存完成任务的最大数目)设置值过大(5000+,EMR默认值150,社区默认值1000)。数据过大,前台显示缓慢/历史任务查询多也会给resourcemanager带来不必要的压力和性能瓶颈。建议值保留平均每天作业数的7倍左右就可以。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。