温馨提示:文本由机器自动转译,部分词句存在误差,以视频为准
00:00
那么接下来我们继续完成增量表的数据同步,那增量表呢是我们由买so产生b log,然后呢由弗Li CDC读取这个b logg,将数据传输到卡夫卡当中,然后采用F写到HDFS,所以接下来我们要完成的任务呢有两块,第一就是我们的弗CDC的程序代码,第二个就是我们因为my circle安装好了,Lo已经开启,卡夫卡已经安装,HDS已经可以正常的运行工作,且我们已经使用了,所以我们接下来要做的就是弗Li CDC跟这两件事情。那么有同学可能会问了,你用弗Li CDC直接写到HDFS不行吗?为什么中间要弯弯绕搞这么多呢,对不对?啊好,那这是这样子的,在生长环境当中呢,虽然我们现在做的是这个。
01:00
离线出仓,但是生产环境当中,未来肯定会考虑要做实时。那如果我们要做实时的话,想想看都是数据分析,那我们是不是也要去读取到MYSQL当中的业务数据啊?那如果你直接用弗CDC写到HDFS,那未来我们如果做实时输仓的时候,你想一下我们要用这个数据,你说是增量同步还是全量同步?那肯定选用增量同步对不对?好,那既然这样,你是不是还是读取logg这边呢?你用弗雷克CC读到HDFS那边呢?诶去做这个实时开发,那很明显这个是重复的任务,那倒不如说我们直接把数据写到卡夫卡一个消息队列当中,那接下来由作为其中的一个消费者把数据消费到HDFS,另外如果我们要做实时任务,那我们可以从卡夫卡再启动一个消费者,诶那读取这里边的数据来完成我们实时的收藏开发。
02:09
对吧,所以这个点就在于这儿啊,大家不要想着,虽然弗利CDC直接到HDFS肯定更为简单一点啊,但是呢,嗯,我们要。虽然我们做的是离线,但是目光要长远一点,要想到我们实时等等这些,好,这是我们第一个数据通道。
我来说两句