温馨提示:文本由机器自动转译,部分词句存在误差,以视频为准
00:00
本节课我们来讨论一下数据湖的流批一体架构。在大数据场景下,需要构建数据仓库来支持数据的存储和数据的计算。Haveve是构建数据仓库的主要方式,但它存在两个主要的问题,1、have原数据的管理是性能的瓶颈,2、have无法实现实时或者准实时化的数据处理,而使用数据弧技术却可以很好的解决这些问题。它是一种流批一体的存储方式,在具体实现的时候可以使用holdy或者iceberg。有了这些基本知识,下面讨论一下数据湖的流批一体架构。在架构体系中,最底层是数据源,这里有业务日志和业务数据库,通过使用flow进行业务日志采集,使用CDC进行业务数据库的数据采集。CDC是change data capture的缩写,中文是变更数据捕获。通过使用CDC可以实现数据库数据的实时采集。接下来需要将采集到的数据写入数据仓库的ods层中,Ods是operation data.
01:00
Store的缩写及数据运营层,也可以叫做数据准备区或者贴原层。这一层存储最原始的数据,在具体实现的时候可以使用卡F卡Di IM是维度表,它保存了维度的属性值,它是dimension table的缩写,在具体实现的时候可以使用数据库haveve或者kafka Di I'M可以跟ods层中的事实表关联,然后将关联的结果写入DWD层。DWD是数据细节层,它是data warehouse details的缩写。DWD保持和ods层一样的数据颗粒度,其作用是对ods数据层做数据的清洗和规范化的操作。DWD层在具体实现的时候一般可以使用kafka。在DWD层之上是DWS层,它是data warehouse service的缩写,即数据服务层,它通过使用ETL读取DWD层中的数据,最终为应用服务层提供分析数据的支持。为了数据的入户操作,在流pet。
02:00
体架构的DWD层,可以使用flink将数据写入数据湖中,从而使用holdd或者sburg构建起相应的DD层和DWS层。现在你已经了解到了数据湖的流批一体架构,那你了解数据仓库的流批一体架构码?欢迎评论区留言讨论好了记得点加号关注赵玉强老师。
我来说两句