Hadoop到目前为止发展已经有10余年,版本经过无数次的更新迭代,目前业内大家把Hadoop大的版本分为Hadoop1.0、Hadoop2.0、Hadoop3.0 三个版本。
Hadoop版本刚出来的时候是为了解决两个间题:一是海量数据如何存储的问题,一个是海量数据如何计算的问题。 Hadoop的核心设计就是HDFS和 Mapreduce.HDFS解决了海量数据如何存储的问题
, Mapreduce解决了海量数据如何计算的问题。
HDFS的全称: Hadoop Distributed File System。
HDFS其实就可以理解为一个分布式文件系统,可以看如图1所示有4个服务器是不是都有他自己的文件系统都可以进行存储数据,假设每个服务器的存储空间存储10G的数据。假设数据量很小的时候存储10G的数据还是ok的当数据量大于服务器的存储空间时是不是单个服务器就没法存储了。 我们是不是可以在服务器中部署一个Hadoop
这样就能构建出一个集群(超级大电脑)。这样就存储 4*10=40G
的数据量,这样我们面向用户时是不是只有一台超级大的电脑相当于一个分布式文件系统。
HDFS是一个主从的架构、主节点只有一个NemeNode。从节点有多个DataNode。
假设我们这里有5台服务器每台服务器都部署上Hadoop,我们随便选择一台服务器部署上NameNode
剩下服务器部署上DataNode
。
客户端上传文件时假设文件大小为129M
HDFS默认切分的大小为128M
这时就会产生出2个blk
NameNode去通知DataNode上传文件(这里有一定的策略),我们就假设就将这几个文件分别存储在4个服务器上。为什们要进行分别存储在,假设DataNode服务器有一天突然挂掉了我们是不是还可通过DataNode4或2和3进行读取数据,这样是不是就防止数据丢失。
NameNode
DataNode
Hadoop2.73之前是64M之后改为了128M
SecondaryNamenode
周期性的到NameNode节点拉取Edtis和fsimage文件,将这两个文件加入到内存进行 然后将这两个文件加入到内存中进行合并产生新的fsimage发送给NameNode。
注意: 早期版本
上述给大家讲解了简单的HDFS架构,我在最后面留了一个小问题,我会在下期通过画图的方式给大家讲解,我在这里为大家提供大数据的资料
需要的朋友可以去下面GitHub去下载,信自己,努力和汗水总会能得到回报的。我是大数据老哥,我们下期见~~~
资源获取 获取Flink面试题,Spark面试题,程序员必备软件,hive面试题,Hadoop面试题,Docker面试题,简历模板等资源请去
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。