温馨提示:文本由机器自动转译,部分词句存在误差,以视频为准
00:00
本节课我们来讨论一下大数据哈杜普生态圈系统。首先了解一下哈杜普的基本知识。哈杜普主要用于离线数据存储和离线数据计算,是一个更容易开发和运行大规模数据的软件平台。该平台使不是面向对象变成源Java实现,具有良好的可疑致性。用户可以在不了解分布式底层细节的情况下开发分布式,用程性来处理大数据。这里再介绍一下哈多普的历史,谷歌曾经发表了两篇论文,第一篇是GIFS,它的全称是谷歌发system,它代表谷歌的文件系统。第二篇是马克,就是这是一个分布式计算模型,用于解决大数据的计算问题。根据这两篇论的思想,阿卡廷开发了开源的哈多普姆,他曾经是阿帕琴软件基金会的主席,了解到了这些基本的知识哈,下面讨论一下哈多普。
01:00
生态圈体系中包含的组件以及他们各自的功能。哈杜普生态圈的最底层是分布式文件系统HDFS全称是的system HT FS来源于谷的GFS在HDFS之上是是存储的数据库H,它是谷歌big table想的一个具体实现。Big table的大表会把所有数据存入一张表中,从而提高数据查询的效率。基于HD和H之上便是哈普的计算执行引擎马注意,谷歌发表的马Du论文是一种分布式计算模型,它与编程语言无关,只是在哈多普中使用了Java编程语言,实现了map producedu计算模型。因此在hard中开发出的map producedu将会是一个Java程序。通过使用既可以处理H的数据,也可以处理HD数据,从哈2.0开始需要运行在Yan之上12S哈多普提供的一个资源和任务管理调度的平台,有了Du计算引擎的支持,哈都提供了数据分析引擎,因为简化,数据的分析和处理和P都是这样的引擎。2的区别是是基于HDS之上的数据仓库,支持使用CQ处理数据,而pig支持是皮拉引擎,目前使用pig的场景比较少。在哈都库生态圈中还提供了数据采集引擎,用于支持ETL的数据采集,是group,主要针对关系型数据库。
02:43
它是一个数据交换工具,通过使用group可以完成关系型数据库与大数据体系的数据交换,从而支持ETL操作。弗罗也是一个数据采集引擎,但它主要针对文本类型的日志数据。注意是group底层是基于mapdu斯人的,而弗罗姆不是。
03:06
在整个哈多普生态圈儿的左边,是基于网页的统一管理工具Hu,通过使用Hu能够管理哈多生态圈中的所有组件。在整个哈多布生态圈的右边是分布式协调服务租K帕,它在整个大数据体系中非常重要,通过使用租K帕可以解决大数据体系的单点故障问题,从而实现ha的高可用。最后需要提醒的是,这里并没有把哈普生态圈中的所有组件画出来,因为有些组件并不常用。现在你已经知道大数据哈德普生态圈中的组件了,那你知道大数据10SPA克和弗林克生态圈中包含哪些组件吗?欢迎评论区有来讨论。好了记得点加号关注赵玉强老师。
我来说两句