00:00
呃,最后写出到Phoenix,我们今天提到了,那我们学过一个GDP think对吧,那要不行的话,我们还有自定义,所以这个暂时先不用讨论那么多啊,最核心的就中间这一块,这也是我们第一个需求重难点的地方就在于这儿。懂吗?啊,确实难度偏大一些啊,也是我们的重点,因为我们都可以动态的去。调整我们的代码逻辑。对吧,啊,不需要停代码,不需要修改,就可以动态的去修改我们的逻辑代码逻辑对吧?那。很强了啊好,那接下来呢,我们要去coding对吧?啊,一步一步来,不要着急啊,来。号,然后呢,DM这啊,然后呢,我们就写一个DMAPP。好,那这里边先把我们刚才梳理的思路来写一下,对吧,第一步。啊,不是消费那个卡法主题啊,而是获取执行环境对吧,第二。
01:06
第二步才是什么读取卡不卡叫topic。DB主题数据创建流对吧,啊创建流好,那第。三步啊,那这个东西呢?为了方便处理,我们将它转化为杰森对象。好吧,将。数据转化为切对象。啊呃,并过滤。定过滤,比如说要过滤掉脏数据。对吧?呃,那还要过滤掉什么呢?很简单,还要过滤掉你,你要知道,那我们的维表呢,当我们做事时数做实时计算的时候,维表里边可能已经有数据了,我们是不是需要把这个历史数据倒过来呀?
02:02
对吧,把这个历史数据给它倒过来,好,那我们把历史数据倒过来的时候,我们想一下,我们其实这边呢可以做一些过滤,当然你不在这儿做,在后面做也可以,因为后面呢,我们还要根据维表的表明做过滤,对吧?好,那这块呢,我们就先做这个。呃,脏数据的过滤可以吧,啊,比如说这边有可能我们业务数据,但是这个概率比较低,但是呢,我们得知道那在这个。福林港当中如果遇到脏数据,我们应该怎么过滤,怎么处理,OK吧,在这边呢,我们写一个过滤,把这个简简单的写一下啊,那我们接算对象已经有了,那就是主流,相当于就准备好了,对吧,这是我们的。主流方便后续处理,把它变成监层对象,也没办法变成招聘对象,因为每张表里面字段都不一样,对吧,没办法写招聘,就用一个统一的叫接层对象啊好,那这是主流,就准备好了,那接下来我们要准备配置流对吧?配置流呢,配置信息放到MYQL啊,刚才我们对比了,你放在配置文件还是放到MYSQLMYSQL肯定更好一点,用flink CDC读过来,它直接就是一个流,对吧,所以呢,这边我们使用。
03:08
叫flink CDC读取配置信息表创建的配置流。对吧,啊,我们要去创建这个配置流,那更重要的是呢,我们要把这个流做成一个广播流,对吧?好,那第五步啊。将配置信息流处理成。广播了。广播流好,那与之关联对吧?好,那就是连接主流。与广播流。诶,连接好之后,我们可以做一个过滤处理,对吧?好,那接下来呢,第七步就是根据。广播流。数据,其实这个广播流,它把这个数据呢,存到广播状态里边了,对吧,咱们是不是有一个广播状态呀,对吧,存到广播状态好,那这边呢,叫根据广播流数据梳理。
04:09
主流数据其实最重要的是不是过滤啊,把不必要的这个数据全部过滤掉,比如说我们只要十张表的数据,我们总共有46张表,那把另外36张表的数据全部过滤掉吧,对吧,做的这些事情啊,处理这一步呢,其实比较麻烦,我告诉你。你看着好像听起来,诶,那不就是说过滤判断一下它是否存在呗,对吧,存在就要,不存在就不要,但是没你想的那么简单,其实这里面最难的是这一步。第七步是最难的,好,呃,那么你已经过滤好了之后,你提取的硫就是只剩下我们所需要的这个维度表的流了,对吧?好,那第八步干什么事啊,那你已经把数据提取出来了,那就是将。数据写出到。飞尼斯中吧。对吧,写入到Phoenix中,好,那最后呢,你要启动任务。
05:05
启动任务OK吧,这就是我们整个的大的逻辑,但实际上这里面还有很多小细节,对吧,我们具体写到哪块在聊哪块的事儿了,现在呢,不聊了。对吧,啊,那主体的就是刚才我们分析过的啊,只不过说前面我们所聊的。更粗对吧,诶。更粗的三个步骤。读取数据,中间加工以及写出数据source transform加think对吧?啊,那source有环境还有细节对吧,我们都把这个细节添加上了,其实在这个文档当中呢,这边也有一个。这个。OK吧,啊流程其实我们刚才就是根据我们刚才所写的那个逻辑来的,这个呢我们就不看了,因为已经非常清楚了,我都已经把那个注释都已经写完了,对吧。
我来说两句