00:00
好,那第二个组件呢,是那呢,其实我们在部署弹性map producece的时候就已经部署完毕了,所以我们就不用管了,给大家看一下啊,它默认呢,在这个master还有这个扩节点上都有它的路径呢,就在这儿啊,就是我们所有的自动安装的地址都是叫user local service,当然你可以把自己安装的那个卡卡放在这个目录下也行,统一管理,对吧,但是呢,我们既然自己装安装的,我们可以也可以分开放,这样的话就做一个区分好吧。那这个呢,咱们就过了,因为他已经装好了,后面用的时候呢,我们就直接使用就好了,接下来呢,是业务数据的同步的概述啊,那关于业务数据呢,同步过来之前我们也提到了那有的数据。表呢,它数据量比较小,有的呢比较大,那我们就要考虑它是增量还是这个全量啊。因为呃,像这个数据量比较大的时候,我们如果每天都去导一份全量,那我们的数据量呢,每天就重复太多了,而且呢,导的数据量太多没有必要对吧?好,那我们来看一下。
01:11
数据呢是我们数仓当中重要的数据来源,我们每天呢要去抽取数据,但是因为我们在离线数仓当中更多的指标是周期为天,所以呢我们每天同步一次就可以了,但是我们刚才也提到了,有的数据表呢,它。数据量很大,那如果你每天完整的同步一次呢,这个数据量整体就变得特别特别大了,就不太合适了,对吧?所以我们整个策略呢,分为全量同步和增量同步,那全量同步呢就比较简单,那每天呢,完整的一份,比如说6月14号,它是张三李四,然后15号呢,我们新增了一个王五,那第二天的时候,6月15号把这三条数据倒过来,然后呢,我们又新在数据库当中新增了一个赵六和田七,到了16号,我们再把这五条数据全部同步过来,因为这样的方式呢,就比较简单啊,但是呢,它数据量一大了,你发现它重复的特别多,没必要,对吧?第二个呢是增量,增量呢就每天指导新增的,比如说来看啊,这边有一个第一天,他可能是张三李四,那第一天呢,你肯定是全量倒过来。
02:22
假如说我们在做离线收仓的第一天,是做离线收仓第一天,并不是我们业务库创建的第一天,好吧,呃,第二天呢,我们做两件事,第一修改了李四为李小四,同时呢,新增了第三条数据叫王五,那第二天呢,我们指导李小四跟王五,第三天又新增了赵六跟田七,那我们只把赵六跟田七拿过来,这样的话,整体上是一个完整的数据,但每天的数据量就比较小了,很明显这种方式适合呢,数据量很大,但是每天变化或者新增的数据量呢,并不多的时候,我们可以选择这样的方式来同步,所以就有两种方式啊,那接下来呢,我们就看一下这个策略的选择,哪些表我们要选用全量,哪些表使用增量啊,那全量同步呢,逻辑简单。
03:13
增量同步效率高,无需同步和存储重复数据,这是我们看到的一个优势,对吧?那缺点,全量同步呢,某些情况下效率比较低,那某张表数量比较大,且每天变化的比率很低,那你倒过来有用,对于第二天而言,倒过来有用的数据其实它的占比并不高,对吧?而增量同步呢,逻辑就要复杂,我们要整合它新增及变化,我们需要获取到这样的数据才可以,对吧?那针对于这种情况呢,我们对咱们的表呢做了一个划分,我们来看一下哪些表我们。用全量哪些表呢?用增量,其实就是我们之前提到的,就主要看这个数据量啊呃,全量表呢,像我们的一些。维度表,这是我们之前提到的叫维度表,对你看活动活动规则,然后呢,商品的分类。
04:06
省份地区SKU puu等等品牌这样的一个点,对吧,那增量呢,就是比如说下订单。历史数据呢,根本就不会变了,支付退款对吧?啊,还有这里边一个比较特殊的,诶,那你可以看到这个是一个明明是一个维度对吧,用户呢是一个维度数据,但是呢,这边我们居然用了一个增量,那是因为用户数据相比于这些维度而言,它的一个数据量要大得多,对吧?呃,但是这里面有一个比较特殊的就是这个架构。加购呢,我们既要做增量,也要做这个全量。啊,至于这个业务逻辑为什么呢?我们在收仓建模的时候再给大家去聊这个事情,好吧,啊,大家简单的区分就是数据量大的我们用增量,数据量小的我们用全量就OK了,好吧,这个其实比较简单一点啊,那同过工具呢,呃,既然我们包含了两种,一种全量,一种增量,那我们就会涉及到两个工具啊,第一个scoop,它呢是做全量同步用的,在部署map的时候,弹性map的时候就已经部署完了,跟一样,我们已经勾选了,对吧,这个你不用管了,第二个呢,是弗Li CDC做增量。
05:23
做增料同步的那弗Li CDC呢,其实它只是一个架包啊,那CDC它是change着data capital叫变更数据获取的一个简称单词的缩写,它可以动态的获取到这种变更的数据啊,好,那它呢,并不需要我们去部署什么flink CDC的内容,其实我们未来呢部署一个。Flink,然后呢去自己编写flink CDC的一个代码,然后呢去运行就好了,OK吧,呃,但是呢,它是通过。读取MYSO当中的b log来完成这个增量数据的获取的,所以我们要想这个弗Li CDC能够使用成功,那我们必须要开启我们买circle当中的b log才可以啊,那前面呢,这是我们关于同步的一些介绍,接下来呢,我们专门的去开启一下我们的b log。
我来说两句