温馨提示:文本由机器自动转译,部分词句存在误差,以视频为准
00:00
本节课我们来讨论一下大数据平台的卡卡架构。首先了解一下大数据体系,卡多普主要用于离线数据存储和离线数据计算,卡发卡是大数据的消息系统,主要用于存储流失的实时数据,18g是基于内存的大数据计算引擎,但18g中没有真正的实时计算,所有斯SPA克中的计算本质上都是批处理理线计算,弗林克与斯SPA克雷斯都是大数据计算引擎,但弗克的流失计算是一种真正的实时计算。有了这些大数据生态圈组件,就可以构建起大数据平台,从而解决海量数据存储和计算的问题。而构建大数据平台时有两种架构体系,马昂达架构和卡法架构。这里重点讨论一下卡法架构,先来看一下KA法架构的基本结构,最底层是数据源层,也叫做data塔索斯列尔,它的作用主要是提供实时的流失数据,数据源层之上是消息传输层。
01:00
也叫斯speed,它提供接收和存储流式数据的消息队列。消息传输层之上是流处理层,也叫C维,它的作用是提供流计算引擎,用于进行分布式的实时计算。最上层是应用层,也叫做application there, 它用于接收处理完成的结果数据。有了这些基本知识,Home下面来看一下KA法架构的具体实现。从下往上可以把KA法架构划分成5层,它们分别是最底层的数据云层,数据云层之上是数据采集层,然后是消息传输层。接着流游处理层,最上面是应用层,首先讨论最底层的数据云层。数据源层提供原始数据,例如业务数据库的数据、用户日志、爬虫数据和系统日志等等。有了数据源的数据就可以通过数据采集层来实现ETL的数据采集。A塔X是阿里巴巴提供的一个开源ETL工具,用于采集数据库的数据。CDC的全称是change data capture, 翻译成中文式变更数据捕获。通过CDCM可以实时采集数据库的数据,例如实时采集or和MYS。口L中数据开是使用Java语言开发的CDC数据采集工具,它通过对数据库增量日志进行解析。
02:32
从而提供增量数据订阅和消费的功能,当然这样的etr工具有很多,通过数据采集层采集到了数据的数据,就可以将数据送入消息传输层,这一层主要使用的是大数据消息系统,卡发卡,也可以是其他的消息系统,在流处理层中,可以使用斯巴克、dream或者弗林克完成数据的流式处理计算,注意,在卡帕架构中,弗林克使用的更广泛,有了流处理层的处理,最后就可以将。
03:08
得到的结果提供给上层的各种应用程序。总体来说,哈帕架构比较简单,它没有批处理的离线计算部分,这也是因为这一点。如果使用kaa架构执行批处理的离线计算,系统的吞吐量会很低,这也是kaa架构的主要缺点。现在你已经知道什么是kaa架构了,那你知道大数据平台的拉姆达架构吗?欢迎评论区与言讨论好了,记得点加号关注赵玉强老师。
我来说两句