00:00
本节课我们来讨论一下大数据hadoop生态圈系统。首先了解一下hadoop的基本知识。Hadoop主要用于离线数据存储和离线数据计算,是一个可以更容易开发和运行处理大规模数据的软件平台。该平台使用的是面向对象编程语言Java实现,具有良好的可一致性。用户可以在不了解分布式底层细节的情况下开发分布式应用程序来处理大数据。这里再介绍一下哈duop的历史,Google曾经发表了两篇论文,第一篇是GFS,全称是Google file system, 它代表Google的文件系统。第二篇是map reduceduce, 这是一个分布式计算模型,用于解决大数据的计算问题。根据这两篇论文的思想,Duck cutting开发了开源的hadoop,他曾经是patche软件基金会的主席,了解到了这些基本的知识后,下面讨论一下哈doop生态圈体系中包含的组件以及他们各自的功能哈doop生态圈的最底层是分布式文件系统HDF。
01:00
S全称是hadoop distributed file system hdfs来源于Google的GFS,在HDFS之上市列势存储的nasco数据库h base, 它是Google big table思想的一个具体实现。Big table的大表会把所有数据存入一张表中,从而提高数据查询的效率。基于HDFS和h base之上便是hadoop的计算执行引擎map produceduce. 注意,Google发表的map produceduce论文是一种分布式计算模型,它与编程语言无关,只是在hadoop中使用了Java编程语言实现了map reduceduce计算模型。因此,在hadoop开发出的mapreduce程序将会是一个Java程序。通过使用map reduceduce既可以处理h base中的数据,也可以处理HDFS中的数据。从Hadoop2.0开始,Mapreduce需要运行在yarn之上。Yan是hadoop提供的一个资源和任务管理的平台。有了mapreduce计算。
02:00
份引擎的支持。Hiop提供了数据分析引擎,用于简化数据的分析和处理。Hive和peak都是这样的引擎,二者的区别是,Hive是基于HDFS之上的数据仓库,支持使用FQL处理数据,而pigak支持的是pig Latin语句,目前使用pig的场景比较少。在Hadoop生态圈中还提供了数据采集引擎,用于支持ETL的数据采集。Scope主要针对关系型数据库,它是一个数据交换工具,通过使用scope可以完成关系型数据库与大数据体系的数据交换,从而支持ETL的操作。Lome也是一个数据采集引擎,但它主要针对文本类型的日志数据。注意,Scoop的底层是基于mapreduce的,而flu则不是。在整个哈oop生态圈的左边,是基于网页的统一管理工具H,通过使用HLL能够管理哈doop生态圈中的所有组件,在整个哈doop生态圈的右边是分布式协调服务sokeeper。它在整个大数据。
03:00
体系中非常重要,通过使用zkeeper可以解决大数据体系的单点故障问题,从而实现ha的高可用。最后需要提醒的是,这里并没有把哈doop生态圈中的所有组件画出来,因为有些组件并不常用。现在你已经知道大数据哈doop生态圈了,那你知道大数据Spark和flink生态圈吗?好了,记得点加号关注赵玉强老师。
我来说两句