温馨提示:文本由机器自动转译,部分词句存在误差,以视频为准
00:00
本节课我们来讨论一下数据集成的大数据流批一体架构。在大数据场景下,经常需要数据同步或者数据集成,也就是将数据库中的数据同步到大数据的数仓或者其他存储中。首先讨论一下传统的数据集成架构。在传统模式下,数据的全量同步和增量同步实际上是两套系统,需要定期将全量同步的数据与增量同步的数据做合并,不断的迭代来把数据库的数据同步到数据仓库中。下面重点讨论一下基于流批一体的数据集成架构,这里将使用到大数据计算引擎flink,从下往上可以把整个架构划分成三层,最底层的数据源层,中间的ETL数据采集层和最上面的数据目的地层数据源层。这里以MYSQL数据库为例,通过使用flink CDC能够实现MYSQL的全量数据同步,CDC是change data capture的缩写,中文是变更数据捕获。由于MYSQL中的数据。
01:00
据会产生变化,就需要执行数据的增量同步,此时可以使用canal完成数据的增量同步操作。Al也是一个基于CDC的数据采集工具,一般在进行增量同步的时候,需要将采集到的增量数据缓存到kafka中,然后由flink CD c读取kafka中的增量数据。此时在flink CDC中已经有了全量数据和增量数据,因此可以将这些数据进行合并,写入数据目的地,如hdfs cofka click house和iceberg。当然这里也可以是其他的数据存储。在这个过程中,Flink CDC可以很好的协调好数据的合并操作。这里提到的click house是一个列式存储数据库,可以用于数据的分析和处理。Iceberg是一种数据弧解决方案,现在你已经了解到了数据集成的流批一体架构,那你了解数据仓库的流批一体架构嘛?欢迎评论区留言,讨论好了记得点加号关注赵玉强老师。
我来说两句