温馨提示:文本由机器自动转译,部分词句存在误差,以视频为准
00:00
本节课我们来讨论一下数据仓库的流批一体架构。在大数据场景下,需要构建数据仓库来支持数据的存储和数据的计算。首先讨论一下数据仓库的流批一体架构。在架构体系中,最底层是数据源,这里有业务日志和业务数据库,通过使用flow进行业务日志采集,使用CDC进行业务数据库的数据采集。CDC是change data capture的缩写,中文是变更数据捕获。通过使用CDC可以实现数据库数据的实时采集。接下来需要将采集到的数据写入数据仓库的ods层中,Ods是operation data store的缩写及数据运营层,也可以叫做数据准备区或者贴原层,这一层存储最原始的数据,在具体实现的时候可以使用kafka Di I'M是维度表,它保存了维度的属性值,它是dimension table的缩写,在具体实现的时候可以使用数据库haveve或者kafka Di IM可以跟ods层中的事实。
01:00
表关联,然后将关联的结果写入DWD层。DWD是数据细节层,它是data warehouse details的缩写。DWD保持和ods一样的数据颗粒度,其作用是对ods数据层做数据的清洗和规范化的操作。DWD层在具体实现的时候一般可以使用kafka。在DWD层之上是DWS层,它是data warehouse service的缩写,即数据服务层。它通过使用ETL读取DWD层中的数据,为应用服务层提供分析数据的支持。为了满足离线数据分析的需要,在流批一体架构的DWD层还可以使用flink将数据写入hive,从而进一步构建离线数仓的DWD层和DWS层。从这里可以看出,该架构是以流处理为主的一种架构体系。讨论完了数据仓库的流批一体架构,再来看看数据仓库的传统架构,从这里可以看出,在传统架构中分为离线数仓。
02:00
和实时数仓两个部分,因此该架构存在的主要问题是开发流程冗余和数据链路冗余。现在你已经了解到了数据仓库的流批一体架构,那你了解数据集成的流批一体架构吗?欢迎评论区留言讨论好了记得点加号关注赵玉强老师。
我来说两句