前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >大数据开发:Hadoop技术原理简介

大数据开发:Hadoop技术原理简介

作者头像
成都加米谷大数据
修改2021-07-23 18:12:52
1.1K0
修改2021-07-23 18:12:52
举报
文章被收录于专栏:大数据开发

在大数据技术体系当中,Hadoop技术框架无疑是重点当中的重点,目前主流的大数据开发任务,都是基于Hadoop来进行的。对于很多初入门或者想要学习大数据的同学们,对于大数据Hadoop原理想必是比较好奇的,今天我们就主要为大家分享大数据Hadoop技术体系详解。

关于Hadoop,大家都知道这是目前市面上主流的大数据都在用的框架,通过分布式存储和分布式计算来解决海量数据处理的问题。目前Hadoop已经更新到最新的3.0版本,从最初的1.0版本到现在,也在不断更新和优化。

Hadoop的官方定义,是开源的大数据框架,可运行在大规模集群上,进行分布式的存储和计算,大数据Hadoop原理,就是基于Hadoop,能够高效地处理海量数据的分布式并行程序,将其运行于成百上千个节点组成的大规模计算机集群上。

Hadoop的核心架构,主要就是HDFS和MapReduce,这两者之中,HDFS为海量数据提供分布式存储,MapReduce为海量数据提供分布式计算框架,通过分布式结构来完成对海量数据的更高效的处理和运算。

大数据Hadoop原理,主要就在于如何通过HDFS和MapReduce实现大数据处理的工作的。

HDFS,包括三个重要角色:NameNode、DataNode、Client。

NameNode:将文件系统的Meta-data存储在内存中,这些信息主要包括了文件信息、每一个文件对应的文件块的信息和每一个文件块在DataNode的信息等;

DataNode:是Slave节点(从节点),是文件存储的基本单元,它将Block存储在本地文件系统中,保存了Block的Meta-data,同时周期性地将所有存在的Block信息发送给NameNode;

Client:切分文件;访问HDFS;与NameNode交互,获得文件位置信息;与DataNode交互,读取和写入数据。 

这其中还涉及到,Block的概念,Block是HDFS中的基本读写单元,HDFS中的文件都是被切割为block进行存储的。

关于大数据Hadoop原理,以上就是今天为大家分享的大数据Hadoop技术体系详解内容了。Hadoop在大数据技术当中处于非常重要的地位,学习大数据,Hadoop技术体系知识是必须要牢牢掌握的。

本文系转载,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文系转载前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档