Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >HOSTS配置问题导致集群异常故障分析

HOSTS配置问题导致集群异常故障分析

作者头像
Fayson
修改于 2018-04-01 11:09:38
修改于 2018-04-01 11:09:38
3.2K0
举报
文章被收录于专栏:Hadoop实操Hadoop实操

温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。

1.问题现象

Hadoop集群HDFS、YARN、Hive等服务出现异常告警

重启集群异常告警任然存在大量告警

Cluster 1

HDFS

可用空间抑制...

代码语言:txt
AI代码解释
复制
NameNode 运行状况抑制...
代码语言:txt
AI代码解释
复制
HDFS 金丝雀抑制...

DataNode (ip-172-31-10-118) 日志文件

NameNode 连接抑制...

DataNode (ip-172-31-5-190) 日志文件

NameNode 连接抑制...

DataNode (ip-172-31-9-33) 日志文件

NameNode 连接抑制...

代码语言:txt
AI代码解释
复制
Hive Metastore Server (ip-172-31-6-148)  日志文件

Hive Metastore Canary 抑制...

代码语言:txt
AI代码解释
复制
Impala Daemon (ip-172-31-10-118)  日志文件

进程状态抑制...

代码语言:txt
AI代码解释
复制
Impala Daemon (ip-172-31-5-190)  日志文件

进程状态抑制...

代码语言:txt
AI代码解释
复制
Impala Daemon (ip-172-31-9-33)  日志文件

进程状态抑制...

NameNode (ip-172-31-6-148) 日志文件

安全模式状态抑制...

Server (ip-172-31-5-190) 日志文件

Quorum 成员资格抑制...

Zookeeper服务“Quorum 成员资格”告警

CM节点上的所有服务的角色日志不能正常通过ClouderaManager控制台查看,显示如下错误:

2.问题复现

集群环境:

  • CDH5.12.0
  • 集群服务(HDFS/Hive/YARN/Zookeeper/Hue/Impala/Kudu/Oozie)

1.还原现场配置,所有服务器hosts配置文件配置

代码语言:txt
AI代码解释
复制
127.0.0.1   ip-172-31-10-156.ap-southeast-1.compute.internal
127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4
::1         localhost localhost.localdomain localhost6 localhost6.localdomain6

172.31.8.141 ip-172-31-8-141.ap-southeast-1.compute.internal
172.31.1.175 ip-172-31-1-175.ap-southeast-1.compute.internal
172.31.9.186 ip-172-31-9-186.ap-southeast-1.compute.internal
172.31.10.156 ip-172-31-10-156.ap-southeast-1.compute.internal

配置中的第一行配置为多出的异常配置。

在主机上ping自己的hostname显示

2.重启集群服务

CM出现如下大量告警

代码语言:txt
AI代码解释
复制
Cluster 1

HDFS
可用空间抑制...
    NameNode 运行状况抑制...
    HDFS 金丝雀抑制...
DataNode (ip-172-31-10-118)  日志文件
NameNode 连接抑制...
DataNode (ip-172-31-5-190)  日志文件
NameNode 连接抑制...
DataNode (ip-172-31-9-33)  日志文件
NameNode 连接抑制...
    Hive Metastore Server (ip-172-31-6-148)  日志文件
Hive Metastore Canary 抑制...
HiveServer2 (ip-172-31-6-148)  日志文件
进程状态抑制...
    Impala Daemon (ip-172-31-10-118)  日志文件
进程状态抑制...
    Impala Daemon (ip-172-31-5-190)  日志文件
进程状态抑制...
    Impala Daemon (ip-172-31-9-33)  日志文件
进程状态抑制...
NameNode (ip-172-31-6-148)  日志文件
安全模式状态抑制...
Server (ip-172-31-5-190)  日志文件
Quorum 成员资格抑制...
    ip-172-31-10-118
代理状态抑制...
    ip-172-31-5-190
代理状态抑制...
    ip-172-31-9-33
代理状态抑制...

Zookeeper与现场告警一致,且Zookeeper服务如下状态

在查看CM节点的日志出现如下异常“Connection refused”

Host列表监控状态

3.问题原因

集群在运行正常的情况下,所有节点的hosts文件被修改为127.0.0.1导致

4.解决方法

修改所有节点的hosts文件,将127.0.0.1行配置注释

重启集群服务恢复正常;

醉酒鞭名马,少年多浮夸! 岭南浣溪沙,呕吐酒肆下!挚友不肯放,数据玩的花!

温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。

推荐关注Hadoop实操,第一时间,分享更多Hadoop干货,欢迎转发和分享。

原创文章,欢迎转载,转载请注明:转载自微信公众号Hadoop实操

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-09-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Hadoop实操 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
0530-6.1-如何只是迁移NameNode或JournalNode
Fayson在上一篇文章《0528-6.1-如何迁移NameNode相关角色》中介绍过通过Cloudera Manager迁移管理节点NameNode,JournalNode和Failover Controller三个角色到其它节点。本文主要介绍如何只是迁移NameNode+Failover Controller或JournalNode角色。
Fayson
2019/11/28
1.2K0
0527-6.1-如果你不小心删了一个NameNode2
在启用了HDFS HA的集群,2个NameNode节点上一般都会部署三个角色:NameNode,JournalNode和Failover Controller。在实际生产中,我们有时会碰到一个情况,你不小心删掉了某个NameNode节点上的所有角色包括NameNode,JournalNode和Failover Controller,或者你不小心通过Cloudera Manager直接从主机管理列表里移除了该NameNode节点,然后你想再把这个节点加回去的时候,发现无论如何HDFS服务都没办法正常使用了。本文Fayson会在一个HDFS HA的CDH集群中模拟这种情况,然后尝试去解决,即先删除一个NameNode,然后这时HDFS会故障,我们来看看如何恢复故障。有兴趣的读者可以注意本文的处理方式与上篇文章《0526-6.1-如果你不小心删了一个NameNode1》的区别,上篇文章是比较健康的将删掉的NameNode再加回去,本文提供的是手动将HDFS HA回退,最后只会保留一个NameNode,也算另一种思路,万一你使用《0526-6.1-如果你不小心删了一个NameNode1》中的方法没办法恢复呢,是吧。
Fayson
2019/11/28
1.8K0
0524-6.1-如何使用Cloudera Manager启用HDFS的HA
在HDFS集群中NameNode存在单点故障(SPOF),对于只有一个NameNode的集群,如果NameNode机器出现意外,将导致整个集群无法使用。为了解决NameNode单点故障的问题,Hadoop给出了HDFS的高可用HA方案,HDFS集群由两个NameNode组成,一个处于Active状态,另一个处于Standby状态。Active NameNode可对外提供服务,而Standby NameNode则不对外提供服务,仅同步Active NameNode的状态,以便在Active NameNode失败时快速的进行切换。本篇文章Fayson主要讲述如何使用Cloudera Manager启用HDFS的HA。
Fayson
2019/11/28
9430
0479-如何禁用HDP2.6.5的HDFS HA
Fayson为了方便接下来从HDP迁移到CDH的工作,这里先补充一篇如何禁用HDP的HDFS的HA,从HDP原地迁移到CDH,如果你的原HDP集群有HA的话,为了因为Zookeeper,JournalNode配置带来的不适应,先取消HA会更保险一些。这里还是要吐槽一下HDP的HDFS HA功能,使用Ambari可以界面化的启用HA,但是要禁用会非常非常麻烦,需要手动做很多个步骤才能最终取消成功。Cloudera Manager还是要方便很多,这一块可以参考Fayson之前的文章《如何使用Cloudera Manager启用HDFS的HA》和《如何使用Cloudera Manager禁用HDFS HA》。本文Fayson主要是介绍如何手动禁用HDP的HDFS的HA。前置条件当然是你使用Ambari开启了HDFS的HA了,如何开启Fayson在本文就不会再做描述了。
Fayson
2018/12/26
1.3K0
Windows Kerberos客户端配置并访问CDH
本文档描述Windows Server2008 R2(windows的内核版本是6.1,与windows 7相同)下安装Kerberos Client及FireFox下HTTP访问HDFS、Yarn、Hive、HBase等Hadoop服务的Web UI(如Namenode的50070,Yarn的8088)的过程。安装文档主要分为以下几步:
Fayson
2018/03/29
7.9K2
Windows Kerberos客户端配置并访问CDH
0482-HDFS上一次检查点异常分析
点开来具体查看发现Active NameNode和Stanby NameNode都有上一次检查点的告警。
Fayson
2018/12/27
1.7K0
0482-HDFS上一次检查点异常分析
Kerberos环境下删除ZooKeeper服务注册信息问题分析
在CDH集群中启用了Kerberos服务后,通过zookeeper-client登录Kerberos删除服务的注册信息时报“Authentication isnot valid”,具体操作及异常信息如下。Fayson这里已经使用fayson用户kinit后操作的,当然即使用hive的keytab文件kinit后也会报同样的错。
Fayson
2018/03/29
4.1K0
Kerberos环境下删除ZooKeeper服务注册信息问题分析
0525-6.1-如何使用Cloudera Manager禁用HDFS的HA
前面Fayson写过《0524-6.1-如何使用Cloudera Manager启用HDFS的HA》。本篇文章主要讲述如何使用Cloudera Manager禁用HDFS HA。
Fayson
2019/11/28
5500
如何使用Cloudera Manager启用HDFS的HA
在HDFS集群中NameNode存在单点故障(SPOF),对于只有一个NameNode的集群,如果NameNode机器出现意外,将导致整个集群无法使用。为了解决NameNode单点故障的问题,Hadoop给出了HDFS的高可用HA方案,HDFS集群由两个NameNode组成,一个处于Active状态,另一个处于Standby状态。
Fayson
2018/03/29
4.9K2
如何使用Cloudera Manager启用HDFS的HA
Hive2.2.0如何与CDH集群中的Spark1.6集成
温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。 Fayson的github:https://github.com/fayson/cdhproject 提示:代码块部分可以左右滑动查看噢 1.文档编写目的 在前面的文章Fayson介绍了《如何在CDH集群中安装Hive2.3.3》,本篇文章主要介绍Hive2.2.0服务如何与CDH集群中的Spark1.6集成,Hive on Spark对于Hive和Spark的版本都有严格的要求,Fayson本文使用的是Hive2.2.0版本做测试,具体版本的
Fayson
2018/07/12
1.3K0
0481-如何从HDP2.6.5原地升级到CDH6.0.1
编写本文主要是因为Fayson在上篇文章《0480-如何从HDP2.6.5原地迁移到CDH5.16.1》迁移失败的补充,为什么迁移失败是因为HDP2.6.5的Hadoop版本2.7.5比C5的2.6要高导致的,HDFS只支持升级,而不支持降级。
Fayson
2018/12/27
1.4K0
0481-如何从HDP2.6.5原地升级到CDH6.0.1
0609-6.1.0-如何卸载CDH6.1
Fayson在两年前的文章中介绍过CDH的卸载,参考《0008-如何卸载CDH(附一键卸载github源码)V1.2.1》。除非你是使用Cloudera官方提供的一键安装脚本安装的CDH,否则并没有现成的一键卸载的脚本供使用。
Fayson
2019/05/07
2.5K0
0609-6.1.0-如何卸载CDH6.1
0480-如何从HDP2.6.5原地迁移到CDH5.16.1
我们常使用的Hadoop平台包括Apache Hadoop,CDH和HDP,有时我们会碰到需要迁移平台的情况,举个例子,比如你已经一直在使用Apache Hadoop2.4,近期看到CDH6附带Hadoop3发布了,想迁移到CDH并且做整个平台的所有组件升级。平台迁移和平台升级的方式基本一样的,一般有2种大的选择,第一种是原地升级即直接在原有平台上操作,该办法操作效率较高,马上看到效果,但往往风险较高,比如升级失败回滚方案不完善,跨大版本比如Hadoop2到Hadoop3可能HDFS还有丢数据的风险;第二种是拷贝数据的方式升级,需要额外的服务器资源,会新搭平台,然后把旧的平台的数据拷贝过去,数据拷贝完毕后,再把旧集群的机器下线了慢慢加入到新集群,该方法一般实施周期较长,但是风险较小。根据实际情况可以选择不同的方式来进行平台迁移或者平升级,另外对于两种方案还可以具体细化分类出不同的方案,比如第一种方案考虑提前备份数据或者备份关键数据等,本文Fayson不做细化讨论。
Fayson
2018/12/27
8440
0480-如何从HDP2.6.5原地迁移到CDH5.16.1
4.如何为Hive集成RedHat7的OpenLDAP认证
温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。 Fayson的github:https://github.com/fayson/cdhproject 提示:代码块部分可以左右滑动查看噢 1.文档编写目的 ---- 在前面的文章Fayson讲了《1.如何在RedHat7上安装OpenLDA并配置客户端》、《2.如何在RedHat7中实现OpenLDAP集成SSH登录并使用sssd同步用户》以及《3.如何RedHat7上实现OpenLDAP的主主同步》,在CDH中各个组件如何集成?本篇文章主要介
Fayson
2018/04/18
2.1K0
4.如何为Hive集成RedHat7的OpenLDAP认证
如何禁用CDH集群Kerberos
温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。 Fayson的github:https://github.com/fayson/cdhproject 提示:代码块部分可以左右滑动查看噢 1.文档编写目的 ---- Fayson在前面的文章介绍了如何为CDH集群启用Kerberos,在集群启用Kerberos后,会对现有环境的部分代码做改造,有些人觉得使用起来不方便,想取消Kerberos。本篇文章Fayson主要介绍如何禁用CDH集群的Kerberos及禁用后对各组件服务的测试。 注意:本文
Fayson
2018/07/12
5.6K0
CDH内存调拨过度警告分析
Hadoop应用程序或者Yarn的作业随机的出现OutOfMemory(OOM),在Cloudera Manager界面显示如下警告:
Fayson
2018/03/30
8K0
0632-6.2-通过Hive生成的Snappy表Impala无法访问异常分析
3.操作目标:把此hive表(hive_table_test_parquet)在表结构不变,数据内容不变的情况下压缩存储,得到新表(hive_table_test_parquet_snappy,此表记录数跟内容跟hive_table_test_parquet应该完全一致,但hdfs文件应该显著变小)
Fayson
2019/05/17
1.6K0
0632-6.2-通过Hive生成的Snappy表Impala无法访问异常分析
如何使用Sentry实现Hive/Impala的数据脱敏
本文主要描述如何使用Sentry实现数据的脱敏(masking of sensitive data elements),高大上的叫法也就是Data Masking。数据脱敏主要是指将原始数据的全部或者部分敏感值进行替换。这样避免了用户未经授权而直接访问原始的值,并保留了底层数据的schema。
Fayson
2018/03/30
3.2K0
如何在启用Sentry的CDH集群中使用UDF
在前面的文章Fayson介绍过UDF的开发及使用《如何在Hive&Impala中使用UDF》,大多数企业在使用CDH集群时,考虑数据的安全性会在集群中启用Sentry服务,这样就会导致之前正常使用的UDF函数无法正常使用。本篇文章主要讲述如何在Sentry环境下使用自定义UDF函数。
Fayson
2018/03/29
4K5
如何在启用Sentry的CDH集群中使用UDF
如何修改Kerberos的CDH集群的HOSTNAME
温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。 Fayson的github:https://github.com/fayson/cdhproject 提示:代码块部分可以左右滑动查看噢 1.文档编写目的 ---- 在集群安装初期由于未规范集群HOSTNAME,带来集群管理的不便,现需要将CDH集群的HOSTNAME统一规范化,在修改HOSTNAME的过程中需要注意什么?本篇文章Fayson主要介绍如何修改Kerberos环境下的CDH集群的HOSTNAME。修改集群所有主机的hostna
Fayson
2018/07/12
1.5K0
推荐阅读
相关推荐
0530-6.1-如何只是迁移NameNode或JournalNode
更多 >
领券
💥开发者 MCP广场重磅上线!
精选全网热门MCP server,让你的AI更好用 🚀
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档