前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >大数据技术入门:hdfs(分布式文件存储系统)

大数据技术入门:hdfs(分布式文件存储系统)

作者头像
百思不得小赵
发布于 2022-12-01 06:44:52
发布于 2022-12-01 06:44:52
75200
代码可运行
举报
文章被收录于专栏:小赵Java总结小赵Java总结
运行总次数:0
代码可运行

大家好,我是百思不得小赵。

创作时间:2022 年 7 月 6 日 博客主页: 🔍点此进入博客主页 —— 新时代的农民工 🙊 —— 换一种思维逻辑去看待这个世界 👀


文章目录


一、概述

Hadoop分布式文件系统(HDFS)是指被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统(Distributed File System)。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束,来实现流式读取文件系统数据的目的。HDFS在最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的。HDFS是Apache Hadoop Core项目的一部分。----------来源于百度百科。

HDFS核心特性

  • 硬件故障:故障的检测和自动快速恢复
  • 数据访问:适合批量处理的一次写入,到处读取,而不是用户交互式的随机读写
  • 大数据集:典型的HDFS文件大小是GB到TB的级别。所以,HDFS被设计成支持大文件。它应该提供很高的聚合数据带宽,一个集群中支持数百个节点,一个集群中还应该支持千万级别的文件。不适用大量小文件的存储。

二、HDFS架构

架构 1.0

  • DATANODE:负责文件数据的存储和读写操作,HDFS 将文件数据分割成若干数据块(Block),每个 DataNode存储一部分数据块,这样文件就分布存储在整个 HDFS 服务器集群中。
  • NameNode:负责整个分布式文件系统的元数据(MetaData)管理,也就是文件路径名、数据块的 ID以及存储位置等信息,相当于操作系统中文件分配表(FAT)的角色。

架构 2.0(高可用)

图上表述了一个集群大概的样子,有 3 个 DataNode(标准集群), 有两个 NameNode,一个是Active, 一个是 Standby, 每个 NameNode 节点都有开启 ZKFailoverController(简写ZKFC)守护进程,有3个JournalNode。

它是如何达到高可用呢? 1、首先,它有两个 NameNode,一个是 Active 的,一个是 Standby (备援状态)的,当 Active 宕机后,可以使用Standby的机器。 2、为了保证 Standby 的机器中,namespace和文件块与Active宕机之前一致,DataNode在向Active NameNode发送块的位置信息和“心跳”时,也要把这些信息发送给Standby NameNode,这样才能保证Standby中的文件块信息与Active NameNode中的数据一致。 3、为了保证 Standby NameNode 中的 namespace 与 Active NameNode 一致,Active NameNode 需要把所有对 namespace进 行的操作都要记录到 JournalNode. 4、作为Standby 的NameNode只要监控到JournalNode中namespace有更改日志,就合并到当前namespace,以保证 namespace 与 Active Namenode 一致。

三、HDFS 的运维

关键的配置文件

常见指令

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
命令格式:hdfs dfs [-operation] [option] [path_local] [path_hdfs]

安全模式

NN进程启动,此时NN正在从 fsimage 和 edits 日志文件加载系统信息(准确的说,应该是正在合并 fsimage 和 edits),并等待各 DN 上报各自数据块状态。然后 NN 自动进入安全模式检查数据块完整性。安全模式状态下的HDFS是不能执行写入操作,但可以执行读操作,检查结束并等到hadoop集群完成启动后退出安全模式。

副本率 = 实际副本数 除以 配置副本数,最低副本率可以在配置文件的 “dfs.namenode.safemode.threshold-pct” 配置项配置,表示当实际的副本率小于该值时,NN 就会自动在其他 DN 节点上复制副本。

启动安全模式:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
hdfs dfsadmin -safemode enter

查看安全模式

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
hdfs dfsadmin -safemode get

关闭安全模式

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
hdfs dfsadmin -safemode leave
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2022-07-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
HDFS分布式文件存储系统详解
优点: 1.处理超大文件 能用来存储管理PB级的数据 1PB = 1024TB 2.处理非结构化数据、半结构化数据、结构化数据 流式的访问数据 一次写入、多次读取 3.运行于廉价的商用机器集群上 可运行在低廉的商用硬件集群上 故障时能继续运行且不让用户察觉到明显的中断
全栈程序员站长
2022/08/22
1.6K0
HDFS分布式文件存储系统详解
Hadoop(四)HDFS集群详解
前言   前面几篇简单介绍了什么是大数据和Hadoop,也说了怎么搭建最简单的伪分布式和全分布式的hadoop集群。接下来这篇我详细的分享一下HDFS。   HDFS前言:     设计思想:(分而治之)将大文件、大批量文件,分布式存放在大量服务器上,以便于采取分而治之的方式对海量数据进行运算分析。     在大数据系统中作用:为各类分布式运算框架(如:mapreduce,spark,tez,……)提供数据存储服务。   分布式文件系统:     问题引发:海量数据超过了单台物理计算机的存储能力     解
用户1195962
2018/01/18
2.3K0
Hadoop(四)HDFS集群详解
Hadoop(四)HDFS集群详解
  前面几篇简单介绍了什么是大数据和Hadoop,也说了怎么搭建最简单的伪分布式和全分布式的hadoop集群。接下来这篇我详细的分享一下HDFS。
大道七哥
2019/09/10
1.8K0
Hadoop(四)HDFS集群详解
Hadoop重点难点:HDFS读写/NN/2NN/DN
NameNode在内存中保存着整个文件系统的名字空间和文件数据块的地址映射(Blockmap)。如果NameNode宕机,那么整个集群就瘫痪了。
大数据真好玩
2021/10/12
1.2K0
Hadoop重点难点:HDFS读写/NN/2NN/DN
彻底理解大数据 HDFS 分布式文件系统,这篇就够了
点击上方“芋道源码”,选择“设为星标” 管她前浪,还是后浪? 能浪的浪,才是好浪! 每天 10:33 更新文章,每天掉亿点点头发... 源码精品专栏 原创 | Java 2021 超神之路,很肝~ 中文详细注释的开源项目 RPC 框架 Dubbo 源码解析 网络应用框架 Netty 源码解析 消息中间件 RocketMQ 源码解析 数据库中间件 Sharding-JDBC 和 MyCAT 源码解析 作业调度中间件 Elastic-Job 源码解析 分布式事务中间件 TCC-Transaction
芋道源码
2022/03/04
7.4K0
EMR(弹性MapReduce)入门之EMR集群的基础排障(五)
前面四节已经向大家介绍完,EMR集群的概括和搭建以及集群内的一些操作,在实际的生产过程中,又会出现各式各样的故障。接着就为大家介绍一些常见的故障已经解决方法。
小司机带你入门EMR
2020/02/03
1.4K0
【史上最全】Hadoop 核心 - HDFS 分布式文件系统详解(上万字建议收藏)
Hadoop 分布式系统框架中,首要的基础功能就是文件系统,在 Hadoop 中使用 FileSystem 这个抽象类来表示我们的文件系统,这个抽象类下面有很多子实现类,究竟使用哪一种,需要看我们具体的实现类,在我们实际工作中,用到的最多的就是HDFS(分布式文件系统)以及LocalFileSystem(本地文件系统)了。
五分钟学大数据
2021/02/08
2.3K0
【史上最全】Hadoop 核心 - HDFS 分布式文件系统详解(上万字建议收藏)
【Hadoop】如何做到Hadoop集群删库不跑路……
扯个犊子先,我司进行集群迁移,没有用的测试机器要进行格式化卖掉了,然后突然一条伟大的命令,误删除了正在使用的hadoop集群所有节点的操作系统盘,数据盘保留,灾难就此来了。
857技术社区
2022/05/17
1.1K0
【Hadoop】如何做到Hadoop集群删库不跑路……
【大数据哔哔集20210122】面试官问我HDFS丢不丢数据?我啪就把这个文章甩到他脸上
HDFS作为分布式文件系统在分布式环境下如何保证数据一致性。HDFS中,存储的文件将会被分成若干的大小一致的block分布式地存储在不同的机器上,需要NameNode节点来对这些数据进行管理,存储这些block的结点称为DataNode,NameNode是用来管理这些元数据的。
大数据真好玩
2021/01/27
1.1K0
【大数据哔哔集20210122】面试官问我HDFS丢不丢数据?我啪就把这个文章甩到他脸上
HDFS经典简答题(实习生必看!)
前一段时间,小菌陆续分享了HDFS系列1-12的博客,总算是要完结了。于是小菌打算再出一期关于HDFS的经典面试题,其中的内容大多都出自于在前面分享的博客中,感兴趣的小伙伴们可以自行浏览,链接小菌放到文末了哦~
大数据梦想家
2021/01/22
7120
HDFS经典简答题(实习生必看!)
必须掌握的分布式文件存储系统—HDFS
HDFS(Hadoop Distributed File System)分布式文件存储系统,主要为各类分布式计算框架如Spark、MapReduce等提供海量数据存储服务,同时HBase、Hive底层存储也依赖于HDFS。HDFS提供一个统一的抽象目录树,客户端可通过路径来访问文件,如hdfs://namenode:port/dir-a/a.data。HDFS集群分为两大角色:Namenode、Datanode(非HA模式会存在Secondary Namenode)
大数据学习与分享
2020/07/12
1.1K0
必须掌握的分布式文件存储系统—HDFS
分布式文件系统HDFS原理一网打尽
HDFS是一个分布式文件系统,具有良好的扩展性、容错性以及易用的API。核心思想是将文件切分成等大的数据块,以多副本的形式存储到多个节点上。HDFS采用了经典的主从软件架构,其中主服务被称为NameNode,管理文件系统的元信息,而从服务被称为DataNode,存储实际的数据块,DataNode与NameNode维护了周期性的心跳,为了防止NameNode出现单点故障,HDFS允许一个集群中存在主NameNode,并通过ZooKeeper完成Active NameNode的选举工作。HDFS提供了丰富的访问方式,用户可以通过HDFS shell,HDFS API,数据收集组件以及计算框架等存取HDFS上的文件。
大数据真好玩
2021/07/30
1.3K0
独家 | 一文读懂Hadoop(二)HDFS(上)
随着全球经济的不断发展,大数据时代早已悄悄到来,而Hadoop又是大数据环境的基础,想入门大数据行业首先需要了解Hadoop的知识。2017年年初apache发行了Hadoop3.0,也意味着一直有一群人在对Hadoop不断的做优化,不仅如此,各个Hadoop的商业版本也有好多公司正在使用,这也印证了它的商业价值。 读者可以通过阅读“一文读懂Hadoop”系列文章,对Hadoop技术有个全面的了解,它涵盖了Hadoop官网的所有知识点,并且通俗易懂,英文不好的读者完全可以通过阅读此篇文章了解Hado
数据派THU
2018/01/30
2.3K0
独家 | 一文读懂Hadoop(二)HDFS(上)
Hadoop技术(一)分布式文件系统HDFS
明确 假设磁盘每秒读取500兆数据, 则1T内容需要2048s 约等于 30min
时间静止不是简史
2020/07/24
8640
大数据技术之_04_Hadoop学习_01_HDFS_HDFS概述+HDFS的Shell操作(开发重点)+HDFS客户端操作(开发重点)+HDFS的数据流(面试重点)+NameNode和Seconda
传统硬盘HDD(Hard Disk Drive)传输速率:100MB/s 固态硬盘SSD(Solid State Drive)传输速率:500MB/s 混合硬盘HHD(Hybrid Harddrive)传输速率:300MB/s PCIe固态硬盘SSD(Solid State Drive)传输速率:1500MB/s
黑泽君
2019/03/04
1.4K0
大数据开发:Hadoop HDFS安全模式讲解
HDFS作为Hadoop框架下的分布式文件系统,其中包括的知识点是非常繁杂的,尤其在理论学习阶段,如果不多花点时间学透彻,在后续的学习当中也会拖累学习进度。今天的大数据开发学习分享,我们就来讲讲Hadoop HDFS安全模式相关的问题。
成都加米谷大数据
2021/06/18
1.7K0
大数据开发:Hadoop HDFS安全模式讲解
大数据开发:Hadoop HDFS安全模式
HDFS作为Hadoop框架下的分布式文件系统,其中包括的知识点是非常繁杂的,尤其在理论学习阶段,如果不多花点时间学透彻,在后续的学习当中也会拖累学习进度。今天的大数据开发学习分享,我们就来讲讲Hadoop HDFS安全模式相关的问题。
成都加米谷大数据
2021/07/01
4170
大数据开发:Hadoop HDFS安全模式
大数据存储技术(2)—— HDFS分布式文件系统
1、产生背景 随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS就是分布式文件管理系统中的一种。
Francek Chen
2025/01/22
1930
大数据存储技术(2)—— HDFS分布式文件系统
深入浅出学大数据(三)分布式文件系统HDFS及HDFS的编程实践
此系列主要为我的学弟学妹们所创作,在某些方面可能偏基础。如果读者感觉较为简单,还望见谅!如果文中出现错误,欢迎指正~
不温卜火
2021/09/29
1.1K0
Hadoop HDFS 实现原理图文详解
Hadoop分布式文件系统 (HDFS) 是运行在通用硬件(commodity hardware)上的分布式文件系统(Distributed File System)。
一个会写诗的程序员
2021/12/16
1.4K0
Hadoop HDFS 实现原理图文详解
推荐阅读
相关推荐
HDFS分布式文件存储系统详解
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验