前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >secondarynameNode工作原理

secondarynameNode工作原理

作者头像
云缓缓知我意
发布于 2021-04-15 07:06:07
发布于 2021-04-15 07:06:07
5440
举报
文章被收录于专栏:kafka。kafka。

前提:

未使用secondarynameNode时,NameNode工作中会产生fsimage 和edtes,edits日志过大,直接导致集群 二次开机恢复原本状态过慢,引起开机时间过长。

secondarynameNode存在的意义

就是加快集群二次启动的速度(减小集群二次启动的时间)

secondarynameNode原理

(帮助NameNode 周期性在NameNode节点拷贝fsimage 和edtes 到自己的节点 上,进行合并,合并后生成全新的FSimage,最后将FSimage发送回NameNode.) secondarynameNode最好是一个独立的节点, 此节点的配置最好与NameNode 相同。

触发secondarynameNode合并文件的条件

1、时间维度, 默认一小时合并一次 , 人为设置使用如下参数

dfs.namenode.checkpoint.period :3600 2、次数维度,默认100W次合并一次。人为设置使用如下参数

dfs.namenode.checkpoint.txns : 1000000 NameNode存储到元数据信息(fsimage 和edtes)可以多目录存储,防止元数据丢失

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2019/11/20 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Hadoop总结(面试题)
分布式是将资源分布存储或者分布计算的统称,分布式是指资源不再单一的再单独的服务器上进行存储或者计算, 而是通过很多服务器来进行存储或者计算
刘浩的BigDataPath
2021/04/13
6230
HDFS中SecondaryNamenode工作原理(7)
我们在刚开始学习HDFS的时候,知道HDFS主要由管理者NameNode和DataNode组成。其中还有一个SecondaryNameNode在HDFS中扮演着辅助的作用,负责辅助NameNode管理
大数据梦想家
2021/01/22
6520
HDFS中SecondaryNamenode工作原理(7)
NameNode和DataNode工作原理(图形化通俗易懂)
NameNode:存储文件的元数据。作用:管理HDFS的名称空间;配置副本策略;管理数据块(Block)映射信息;处理客户端读写请求。NameNode两个重要文件(内存中的镜像=fsimage+edits)。
lovelife110
2022/05/10
1.8K0
NameNode和DataNode工作原理(图形化通俗易懂)
Hadoop框架:NameNode工作机制详解
NameNode运行时元数据需要存放在内存中,同时在磁盘中备份元数据的fsImage,当元数据有更新或者添加元数据时,修改内存中的元数据会把操作记录追加到edits日志文件中,这里不包括查询操作。如果NameNode节点发生故障,可以通过FsImage和Edits的合并,重新把元数据加载到内存中,此时SecondaryNameNode专门用于fsImage和edits的合并。
知了一笑
2020/11/02
7690
Hadoop框架:NameNode工作机制详解
0482-HDFS上一次检查点异常分析
点开来具体查看发现Active NameNode和Stanby NameNode都有上一次检查点的告警。
Fayson
2018/12/27
1.7K0
0482-HDFS上一次检查点异常分析
快速学习-NameNode和SecondaryNameNode
思考:NameNode中的元数据是存储在哪里的? 首先,我们做个假设,如果存储在NameNode节点的磁盘中,因为经常需要进行随机访问,还有响应客户请求,必然是效率过低。因此,元数据需要存放在内存中。但如果只存在内存中,一旦断电,元数据丢失,整个集群就无法工作了。因此产生在磁盘中备份元数据的FsImage。 这样又会带来新的问题,当在内存中的元数据更新时,如果同时更新FsImage,就会导致效率过低,但如果不更新,就会发生一致性问题,一旦NameNode节点断电,就会产生数据丢失。因此,引入Edits文件(只进行追加操作,效率很高)。每当元数据有更新或者添加元数据时,修改内存中的元数据并追加到Edits中。这样,一旦NameNode节点断电,可以通过FsImage和Edits的合并,合成元数据。 但是,如果长时间添加数据到Edits中,会导致该文件数据过大,效率降低,而且一旦断电,恢复元数据需要的时间过长。因此,需要定期进行FsImage和Edits的合并,如果这个操作由NameNode节点完成,又会效率过低。因此,引入一个新的节点SecondaryNamenode,专门用于FsImage和Edits的合并。 NN和2NN工作机制,如图3-14所示。
cwl_java
2020/02/19
5060
HDFS的SecondaryNameNode作用,你别答错
这是道经典的基础面试题,笔者问过面试者很多次(当然也被面试官问过很多次)。从印象看,大约有一半的被面试者无法正确作答,给出的答案甚至有“不就是NameNode的热备嘛”。本文来简单聊聊相关的知识,为节省篇幅,将SecondaryNameNode简称SNN,NameNode简称NN。
王知无-import_bigdata
2020/04/17
1.3K0
fsimage和edits详解
由于editlog记录了集群运行期间所有对HDFS的相关操作,所以这个文件会很大。
用户4870038
2021/02/05
7270
fsimage和edits详解
解读Secondary NameNode的功能
最近有朋友问我Secondary NameNode的作用,是不是NameNode的备份?是不是为了防止NameNode的单点问题?确实,刚接触Hadoop,从字面上看,很容易会把Secondary NameNode当作备份节点;其实,这是一个误区,我们不能从字面来理解,阅读官方文档,我们可以知道,其实并不是这么回事,下面就来赘述下Secondary NameNode的作用。
Spark学习技巧
2021/03/05
1.7K0
解读Secondary NameNode的功能
深刻理解HDFS工作原理
概述 HDFS(Hadoop Distributed File System )Hadoop分布式文件系统的简称。HDFS被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。DFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束,来实现流式读取文件系统数据的目的。HDFS在最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的。HDFS是Apache Hadoop
xiangzhihong
2018/02/06
2.9K0
深刻理解HDFS工作原理
基于Hadoop0.20.2版本的namenode与secondarynamenode分离实验
我们在Hadoop配置集群时,经常将namenode与secondarynamenode存放在一个节点上,其实这是非常危险的,如果此节点崩溃的话,则整个集群不可恢复。下面介绍一下将namenode与secondarynamenode分离的方法。当然还存在好多不足和待改进的地方,欢迎各位大神指点和吐槽。
星哥玩云
2022/07/04
3490
基于Hadoop0.20.2版本的namenode与secondarynamenode分离实验
NameNode和SecondaryNameNode工作机制
(1)首次启动需要格式化NameNode,创建Fsimage和Edits文件。如果不是第一次启动,直接加载编辑日志和镜像文件到内存。
江帅帅
2020/07/28
5510
【赵渝强老师】史上最详细:Hadoop HDFS的体系架构
在Hadoop HDFS的体系架构中,包含了三个组成部分。它们分别是:NameNode、DataNode和SecondaryNameNode。下图摘至Hadoop官方的网站,它说明了HDFS的体系架构。
赵渝强老师
2025/03/02
1320
【赵渝强老师】史上最详细:Hadoop HDFS的体系架构
大数据开发:HDFS Namenode元数据管理
HDFS作为分布式文件系统的代表性产品,在大数据学习当中的重要性是不言而喻的,基于Hadoop基础架构,HDFS更是得到了广泛的认可,在大规模离线数据处理上,提供稳固的底层支持。今天的大数据开发技术分享,我们就主要来讲讲HDFS Namenode元数据管理。
成都加米谷大数据
2021/01/18
9930
大数据开发:HDFS Namenode元数据管理
HDFS CheckPoint时间设置
HDFS Checkpoint是一种机制,用于将NameNode的内存中的元数据信息存储到磁盘上,以保证在NameNode故障发生时,可以快速地恢复元数据信息。在HDFS中,Checkpoint由两个组件组成:Secondary NameNode和Checkpointer。
堕落飞鸟
2023/05/12
1.1K0
大数据-HDFS的元信息和SecondaryNameNode
当 Hadoop 的集群当中, 只有一个 NameNode 的时候,所有的元数据信息都保存在了 FsImage 与 Eidts 文件当中,这两个文件就记录了所有的数据的元数据信息, 元数据信息的保存目录配置在了hdfs-site.xml 当中
cwl_java
2019/12/25
3800
Hadoop之HDFS03【NameNode工作原理】
  每隔一段时间,会由secondary namenode将namenode上积累的所有edits和一个最新的fsimage下载到本地,并加载到内存进行merge(这个过程称为checkpoint)
用户4919348
2019/04/18
7410
HDFS——fsimage
在《HDFS——editLog文件》一文中提到了namenode(后面简称nn)的元数据信息由editlog和fsimage文件组成。
陈猿解码
2023/02/28
7960
HDFS——fsimage
HDFS NameNode重启优化
一、背景 在Hadoop集群整个生命周期里,由于调整参数、Patch、升级等多种场景需要频繁操作NameNode重启,不论采用何种架构,重启期间集群整体存在可用性和可靠性的风险,所以优化NameNod
美团技术团队
2018/03/12
2K0
HDFS NameNode重启优化
Hadoop HDFS 用户指南
This document is a starting point for users working with Hadoop Distributed File System (HDFS) either as a part of a Hadoop cluster or as a stand-alone general purpose distributed file system. While HDFS is designed to "just work" in many environments, a
用户1154259
2018/01/17
7520
相关推荐
Hadoop总结(面试题)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档