00:00
呃,那咱们接着聊聊这个DWD层。呃,那我们讲DWD层的数据,我们放卡夫卡可不可以呢?DWD层的数据,咱们放卡夫卡可不可以呢?想一想啊,还是从我们这个。写入。跟他使用的方式上来聊对吧?啊,那这个数据从ods层把它。消费出来。啊,写到这个DW层。
01:01
啊,之后呢,我们要把DW数据的拿到,拿到之后呢。应该怎么去用,对吧,还是从这两个角度来考虑,我们DWD放到卡夫卡可不可以对吧。能不能行?如果觉得可以的啊,就正常扣一嘛,不可以的就说一下理由对吧,理由是什么?为什么不行?可不可以啊,大家觉得我们的DWD层放的卡不卡,能不能行啊?
02:04
那完全没问题对吧,DWD层实时表来一条数据正常计算一条对吧?啊那之后呢,消费出来做聚合,那是你下游你消费过去之后的一个事情了,对吧,在这之后的事情在这诶。你在这个地方处理的事情了,对吧,跟我这个D本身没什么关系,我只负责把它写进来,然后呢消费到,然后处理就行了,所以说DWD层呢,放在卡夫卡完全没有问题,好,那接下来DWS。DWS是什么样的一个数据啊?DWS是什么样的一个数据啊?
03:01
对,就是,嗯。它是呢,这个跟这个关联数据存进去对吧?啊做聚合做一张大表没毛病对吧?啊,这个是没毛病的好呃,他怎么用呢?这个DWS应该怎么用呢?未来它来源是他俩,那没问题啊,写到卡夫卡没问题啊对吧?那针对于DWS数据,我们应该怎么去使用呢。诶根据维度聚合指标没毛病对吧,啊它呢需要根据维度对吧。聚合指标对吧,好。
04:02
呃,那由于刚才我们说了它的数据来源呢,是它俩关联的这个大宽表对吧,那我可以认为一个DWS层的表,它不止出一个需求,对不对,他可能出很多的需求。对吧,这一张表里边出很多需求,那你每一个任务都是一个什么。Flink任务吧,每一个都是flink任务啊呃,这样其实。不好有一个更好的解决方案,因为这个呢,接近于我们往后最后一层了,对吧,因为接下来你只要是ADS啊,所以呢,我们能不能这样把DWS层呢,我不放卡布,卡布可以啊,这一层卡布尔可以。啊。这一层放在卡夫卡是可以的。啊,是可以的,呃,但是呢。还有一个更好的方案就是说呢,来注意啊,我们DWS刚才说了,如果你放卡夫卡,嗯,你是不是要对于一个主题,因为卡夫卡里边嘛,就是一张表,我们验收单一张表对应这边就一个主题,对吧,这一个主题呢,会被多次消费做不同的计算,对吧?其实大体上来说都一样啊,那我们也有更好的方案什么呢?我们可以把它放在这个。
05:18
克林格号。啊,我们可以把它放在这个。克林克house里边。啊,可以把它放在科house里边。对吧,那接下来呢,放到克里奥之后咱们怎么办?直接写circle做查询对吧,代替Li。代替Li,因为Li呢,你每一个都是单个程序,你要打包运行,没有我搜狗运行方便,那为什么在这就可以这样做呢?因为它接下来是ADS,我就把这个指标直接展示不就好了吗?你想想看啊,对于我们实时的输仓而言,我问大家一个问题,最后的指标呢?
06:00
最后的指标。需不需要落盘,我们想这个问题就行了,对吧。我们实时的这种指标需不需要落盘啊。其实可以不需要罗盘的,大家想是不是?他完全可以不需要去落盘。对不对,没毛病吧,我落班干嘛呀。我直接做展示对吧。实时有按月汇总的。啊,那你按月汇总你去查呀。就是我的意思是你看啊,比如说实时你看啊,那一秒钟,我没有像阿里的双11那个大屏那样,就是真正意义上实时滚动对吧?好,那假如说你一秒钟刷新一次,好,你是有月指标对吧,这个月呢,总金额,呃,比如说有个数字对吧,XX啊好,等会儿呢,一秒钟之后变成YY,我的意思是你这个XXYY你要把它存下来吗?就是我一秒钟查一次,因为我这个大屏,我希望它一秒钟刷新一次。
07:23
对吧,我希望他一秒钟刷新一次,那么你查到了一秒,每隔一秒钟查到这个XSYY,它需要。存下来吗?我是这个意思,就是最终的结果,ADS这个结果要不要存下来对吧,你按月汇总无所谓啊,那我DWS这个数据在这,我从这里面查出来数据啊,对吧,说的这个事儿了。需要存储,需不需要?很明显是不需要的,对吧?啊,很明显不需要我直接查就行了,所以从这个角度来说,咱们是不是用克house更好一些啊,比卡普卡要更好一些啊。
08:10
能明白吧,对吧,其实这个地方呢,反而是卡夫卡也可以,只不过说呢,你未来要写的这个任务呢,就更多了,对吧,每一个需求都是一个单独的任务。每一个需求都是一个单独的任务。对吧。啊,每一个需求都是一个单独的任务啊,在于这儿,那我们要存在克号里边,每个需求就是一个独立的circle,这要简单很多,主要它在于ADS,不需要罗盘在,而且ADS也不会被人消费什么样子的,所以这个东西呢。诶,本来我们应该满足什么叫实时写入,实时读取的这个逻辑,但由于呢,接下来我不需要做什么事了,我直接把这个结果查出来,做一个什么展示就行了,啊,那ADS其实就是什么呢?就是那个搜语句对吧。就是克林浩这个思维语句,换句话说呢,我们要做展示,其实就是一个数据接口。
09:04
其实就是这个数据接口。啊,其实就是这个数据接口OK吧,它应该是这样子的一个点啊好,这是我们讨论完了整个的一个分层。啊,你要了解啊,所以呢,其实有很多时候呢,还有多个框架都可以,对吧,而且我们学习的框架呢,还是比较少的啊,市面上还有更多的其他框架,比如说这个这边DS我不用克house我用这个Doris。Doris对吧,那这个也可以呀。而且呢,目前我们也正在研发,我看啊,到时候看咱班能不能来得及,如果来得及的话,我给大家扩展啊,多讲一天或者两天课啊,因为下个班不用我讲这个实时数仓了,所以咱们班呢,我有时间延课,这个早就跟他说了,对吧?啊到时候看一下,如果说嗯,我们在中间也我也参与了嘛,对吧?看如果说来得及的话,我再给大家扩展一下诶把DWS。
10:09
存到这个Doris。啊,存到Doris这款呢。呃,我们未来未来的想法呢,我们未来的想法呢,是这样子的,就是诶那你们班可能讲克house,下个班讲Doris,再下个班讲克house,再下班讲dori,这样的话呢,两个班。两个班,这怎么样?两个班岔开,两个班岔开,这样的话,你们简历呢,就有区分度了,因为这种大的框架不一样,就明显有这个区分度了,简历上有区分度了,未来我们还会研研发新的项目,就是。更好一些对吧,可能每三期搬一个循环,每三期搬一个循环,甚至项目都有不同对吧?啊,项目都有不同,那这样会更好一点,对于大家找工作来说啊,就目前来说呢,因为硅谷一直人手不是特别足,但现在呢,能好很多了,能好很多了,有时间有人去研发对吧?啊让我专门讲课的啊,我后面就是专门就是研发加录课啊,讲少量的课了。
11:13
啊,基本上这种这种成熟的课就不讲了,因为嗯,我我也不想讲了,说实话成熟的课你讲了。嗯,就这玩意儿讲讲个五六遍七八遍真没意思,没什么意思,就头两遍还还还挺爽的,对吧,讲新课啊,就未来就是研发加录课,慢慢的像这种东西可能就不太讲了啊。好,这是我们所说的一个点,这个呢,我先写在这儿啊,当然如果说来得及的话,会给大家去,呃扩展一下,来不及拖一拖,但是你不能拖太久啊,我我中间我我不上课,天天看着大家自习是吧?诶等这个研发研发出来之后,给大家讲这个也不现实对吧,起码我在这个项目讲完之前,如果那个整个能出来,我花一点时间去背一背,应该就差不多了,因为整个的研发过程呢,我我参与的比较少啊,我参与比较少,但是呢,我会实时跟进进度,因为我我有课嘛,所以给我的任务就相对比较少。
12:12
啊,所以就是我可能到时候还要花一点时间备备课啊,但是扩展的东西嘛,呃,备课呢,如果说有一些文档错误啊,大家也能也要理解一下对吧?啊,因为刚开始的内容呢,都会有一些什么笔误啊,或者什么东西都会有一些错误的内容在里边啊,这有可能对吧,而且呢,到时候如果真的给大家扩展啊,到时候深度肯定不是特别的深。对吧,就可能简单的去应用,你了解一下这个框架,了解下框架对吧,如果面试到问到了,诶你用过对吧,这就够了啊,咱们达到这个目的,大家多了解东西啊。
我来说两句