1. 集群NodeManager节点unhealthy时,一般的处理步骤
背景描述:
节点处于不健康状态一般会导致集群资源减少,任务卡住,甚至任务失败的问题。
排查步骤:
1. 去到不健康节点的机器,用du命令去查看/data目录数据大小的分布情况,找出占比最大的目录
2. 判断目录的属性,如果是qcloud等hdfs的数据目录
a. 查看回收站目录 hdfs dfs -du -s -h /user/$USER/.Trash,大小的占用情况,清空没必要的回收站文件
b. 排查数据量的写入情况,是否有异常任务写入数据,导致数据量爆增
c. 排查节点之间的数据是否均衡,并及时启动集群的balance功能,让节点相对均衡
d. 梳理业务数据,降低不重要数据的副本(有风险,慎重考虑)
3. 如果是其他的日志目录,例如logs或者/data/emr/yarn/local, 删除没必要的logs或者*_DEL_*文件
2. 队列还存在着资源,但是应用处于Pending状态
如果你的调度器配置处于默认状态,而且如标题所描述,我们可以关闭AM资源限制,提交更多的应用
fair-scheduler.xml
<?xml version="1.0"?>
<allocations>
<queue name="default">
<maxAMShare>1.0</maxAMShare>
</queue>
</allocations>
capacity-scheduler.xml
yarn.scheduler.capacity.maximum-am-resource-percent 0.8
1. 在Oozie上使用sqoop,使用hcatlog,如果错误:
ERROR org.apache.sqoop.tool.ImportTool - Imported Failed: Can not create a Path from an empty string
需要在执行命令添加‐‐skip-dist-cache参数,避免这个问题
参考文档
http://datasideoflife.com/?p=235
HUE FAQ
1.HUE创建普通用户失败
在第一次进入hue的时候,默认需要用hadoop用户作为管理员登录
Presto FAQ
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。