温馨提示:文本由机器自动转译,部分词句存在误差,以视频为准
00:00
本节课我们来讨论一下大数据平台的拉姆达架构。首先了解一下大数据体系,卡杜普主要用于离线数据存储和离线数据计算,卡夫卡是一个消息系统,主要用于存储流失的实时数据,10SPA克是基于内存的大数据计算引擎,但10SPA克中没有真正的实时计算,FNK与SPA克雷斯都是大数据计算引擎,但弗link的流失计算是一种真正的实时计算。有了这些大数据生态圈组件,就可以构建起大数据平台,从而解决海量数据存储和计算的问题。而构建大数据台时有两种架构体系,拉姆达架构和卡塔架构。拉姆达架构是主流的方式,这里重点讨论一下拉姆达架构。在拉姆达架构中分为两套系统,批处理的离线计算系统和流处理的实时计算系统。马尔PDU、斯巴com和弗林克德塔赛特主要用于批处理的离线计算系统。而斯storm。
01:00
斯巴克swimminging和弗林可德塔swimming主要用于流处理的实时计算系统。了解到了这些基本的知识,接下来讨论拉姆达架构的体系结构。从下往上可以将拉姆达架构划分成五层,分别是数据源层、数据采集层、大数据平台层、数据仓库层,简称数仓层。最上面是应用层。首先讨论最底层的数据云层。数据源层提供原史数据,主要包含离线数据和实时数据两种不同的类型。这里的离线数据主要是指已经存在的历史的数据,而实时数据是相对于计算任务而言还不存在的未来的数据。有了数据的数据就可以通过数据采集层来实现。ETL的数据采集group主要用于采集关系型数据库中的数据,主要用于采集文本类型的。
02:00
数据CDC的全称是千基德塔卡,翻译成中文式变更数据捕获。通过CDCM可以实时采集数据库中的数据。但它X是阿里巴巴提供的一个开源ETL工具,功能类似于SCO开头也是一个比较常见的ETL工具。当然这样的ETL工具有很多,为了解决数据云层和数据采集层之间的耦合问题,一般会在中间加上一层数据总线。注意,数据总线不是必须的。通过数据采集层采集到了数据的数据,就可以构建大数据平台层,这也是整个平台的核心。在拉姆达架构中分为两套系统,一套是离线数据仓库,另一套是实时数据仓库。在离线数据仓库中可以使用HDS和HP存储,离线数据计算则可以使用marketdu、10SPARK com或者是弗林赛完成。
03:00
为了任务的统一管理和资源的调度,一般会把各种计算任务运行在亚之上。样式哈多普2.0版本以后提供的一个资源和任务调度平台。在大数据体系中,为了简化应用程序的开发,还提供了各种数据分析引擎,以支持使用SCO处理数据。Have Spark scom和弗Li scom都是这样的引擎。讨论完离线数据仓com,大家讨论一下实时数据仓库。在实时数据仓库中,可以使用消息系统卡夫卡来存储实时数据,计算则可以使用STORM10SPA克dream或者弗林可data塔stream完成。目前Storm使用场景比较少。与离线数据仓库的结构类似,这些计算引擎也都可以运行在压N之上,同样也支持使用ccom处理数据。有了大数据平台层的支持,就可以创建数据仓库。数据仓库层主要讨论建模的问型,有了数据仓库层中各种模型,最后就可以支撑最上面的应用层。现在你已经知道什么是拉达架构,那你知道大数据平台的kaa架构吗?欢迎评论区,你要讨论好了,记得点加号关注赵玉强老师。
我来说两句