首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >hadoop宕机恢复流程

hadoop宕机恢复流程

作者头像
用户4128047
发布2025-12-23 16:01:59
发布2025-12-23 16:01:59
1270
举报

Hadoop集群宕机恢复流程 一、NameNode宕机恢复 ‌确认故障状态‌ 检查日志(/var/log/hadoop)确认NameNode进程是否异常终止 验证Active NameNode是否无法响应HTTP请求(默认端口50070) ‌执行恢复操作‌ HA架构恢复‌:

代码语言:javascript
复制
# 激活Standby节点
hdfs haadmin -transitionToActive --forcemanual nn2  
# 修复原NameNode后重新注册为Standby
hdfs namenode -bootstrapStandby  

‌数据完整性校验

代码语言:javascript
复制
hdfs fsck / -files -blocks -locations > fsck_report.txt  # 生成块分布报告 
hdfs dfsadmin -metasave metasave.log  # 保存元数据镜像备份  

DataNode宕机恢复 ‌自动修复机制‌ NameNode检测心跳超时(默认10分钟)后标记节点失效 启动不足副本数的块复制(目标达成默认3副本) ‌手动介入场景‌ 排查网络问题后重启DataNode服务:

代码语言:javascript
复制
hadoop-daemon.sh restart datanode  
# 查看块同步进度
hdfs dfsadmin -report | grep "Under replicated"  

若节点永久丢失,需清理元数据并触发全量复制:

代码语言:javascript
复制
hdfs dfsadmin -refreshNodes  # 更新排除列表

主节点(Master)宕机恢复

代码语言:javascript
复制
yarn rmadmin -transitionToActive --forcemanual rm2  # YARN资源管理器切换  

故障原因通常有: 1)如果MR造成系统宕机。此时要控制Yarn同时运行的任务数,和每个任务申请的最大内存。调整参数:yarn.scheduler.maximum-allocation-mb(单个任务可申请的最多物理内存量,默认是8192MB) 2)如果写入文件过快造成NameNode宕机。那么调高Kafka的存储大小,控制从Kafka到HDFS的写入速度。例如,可以调整Flume每批次拉取数据量的大小参数batchsize。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2025-05-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档