00:00
呃,那接下来呢,就是真正的这个数仓。建模了。啊,真正的舒仓建模了。对吧,好,那。怎么来第一步啊,要做什么事,项目调研啊,就是你工作的时候对吧,项目调研这是第一步啊。那你需要拿到所有后台。数据。啊,后台数据,呃,后台这个数据表吧,数据表更好一点啊以及。表的描述信息。表描述信息,因为有的表呢,你光看那个表对吧。你不太好知道每一个字段什么意思,你必须要有这个信息才可以,对吧,好,那呃,有什么不懂的啊,接下来呢,正正正常工作与这个Java。
01:03
一人员交流。音乐交流。对吧,好。那。还有如果说你这是表与他与他交流对不对,关于表的问题啊。呃,还有一个呢,与产品经理交流。好,那这个是关于什么,这个是关于需求,需求的部分你要跟这个产品经理去聊。对吧,啊好,那需求这块呢,我们要重点去关注一下,就是我们所谓的指标对吧,需求也叫指标,那指标呢,我们有几类。怎么分类的,是不是大家也忘了,像这种概念全都忘了?
02:06
三类啊,哪三类。原子派生啊,衍生没毛病对吧,啊原子指标,然后呢,派生指标。以及一个衍生指标。延伸指标对吧,好,那我们重点的我们最多的是哪一类。就是未来我们的需求最多的是哪一类?就是我们未来根据这个指标做什么指标体系建设,其实根据的是谁呀。派对了。根据的就是这个派生指标对吧,派生指标是由原子指标。加叫统计周期。
03:00
加业务限定。再加什么?统计力度所组成的,对吧,而这个原子指标它又有三要素吧,又有三要素什么业务过程。业务过程啊,度量加聚合逻辑。对吧,它这样的一个构成。啊,那未来呢,就派置指标,而衍生指标是什么?就是在你指标基础上把两个指标作用到一起,对吧?诶那我们所看到的什么什么什么率,因为一旦指标当中出现什么什么率的时候,一定是一个比值,那这种比值的话,那就是属于我们什么延伸指标,它是有两个结果对吧?那你比值你肯定有一个A有个B,相比那AB其实本身就是一个指标,你单拎出来它就是一个指标,对吧,那比如说这边。啊,就是我们的什么平均数啊,类似于这样的东西对吧,都是一个比值对吧?好,这是第一个项目调研阶段,你要做的这个准备工作,对吧?诶这个也不是准备,就是你实施的工作,那第二步干什么呢?叫明确数据域。
04:16
好,第二个呢,叫明确数据域啊,那对于我们这个数据域而言。大家想一想,你记得?哪些数据啊,来说一说。你还记得有哪些数据域啊?交易域流量域工具域啊用户流量交易。
05:01
还有呢,没了吗?没了吗?其实很简单啊,你用一条线啊,互动语。其实你用一条线怎么样呢?把这个串起来。啊,把整个过程串起来,而且这样的话,你指标你对应的要求的这个指标对吧,实时表也就实时表就出来了。就是你的事实就出来了,怎么串呢,来注意听啊,首先你想想看啊,你对于一个平台这个。比如说京东或者淘宝,你往第一件事情一般做什么事。就正常而言啊。就上去浏览对吧?啊。好呃,假如说呢,他必须要求你登录呢。对,要登录啊,你不是上去浏览先登录。对吧,好,那首先这个什么域呢,用户语。用户与。
06:01
对吧,而它对应的实时表有哪些呢?那不就是登录。注册了。是不是用户语里边实时表就这个。对吧,事实表好,那第二诶,那你登录上去之后,你干嘛呀,你接下来干嘛。嗯。你登到这个平台上去以后,你接下来要干嘛。要东点点西点点,诶这个搞活动了,看一看对吧,那个促销了看一看,诶这个商品可能,诶我想买,我要点进去看一看对吧,那这是什么。浏览吧,浏览对了啊,那第二件事情呢,正常的去浏览,浏览的话呢,这个属于什么叫流量语。对吧,涉及到浏览流量语,好,那它有什么时时表呢,那浏览。
07:04
行为数据对吧,行为数据,那就这些页面。当然我们可以这样写啊,启动。启动。那个页面。曝光。动作以及。对吧,那你看这个不就是事实表里边儿。啊,不是设值表,就是我们所说的日志表,对吧?日志表做的事情流量与第二个好,你也看的差不多了,你接下来该做什么事了。啊,你差看的差不多了,你接下来应该做什么事了。加购下单支付购买对吧,啊做这事,这个属于什么叫交易。对吧,交易啊,领个券啊,不一定有可能你先加入购物车,后面呢再领券对吧?啊。
08:03
好,那这是。交易对吧,那交易域所涉及到的。业务过程呢,对吧,就刚才大家提到了对架构。对吧,然后下单。这个注意啊,这是我们的预,这是预里边对应的实时表对吧,下单啊,那取消下单。诶,现在还没支付呢,我取消掉了对吧,然后呢,支付。啊,退单是吧,成功了,支付成功了,我想退掉退单。对吧,类似于这样东西电点里还有很多啊,那这个呢,还有这个物流,但中小公司没有物流,物流呢得大公司干得有钱,你看物流还是很很费钱的,而且一般的物流公司啊,未来大家找工作的时候,如果物流公司可以去啊,因为物流公司呢还是很有钱的啊,这是交易好,那刚才有同学提到了,在我们加购啊,或者说下边订单支付的过程当中,我们可以先领领个券,对吧?啊,那这个呢,就是工具啊。
09:08
对不对啊工具,因为我们领券。那这里面有什么呢?就是领券。领券事实对吧,还有用券。用券呢,又分为两两类,一个呢是下单用券,一个是支付用券,下单呢就是把这个券用了,但是呢,没有真正用,支付呢,它真正的用出去了,对吧?好,那最后诶,那你买完东西之后到货了。对吧,物流给你送到了。你在干嘛呀?啊。要求你。评价吧,是不是?差评啊,直接差评是吧?啊对,要要求评价是不是啊对啊互动语。那就是点赞。收藏。
10:02
底下是不是都属于我们互动域里边的,对吧?那我们所学习过的不就这些吗?是不是用一个人的行为把这个一条所有的事实经历了一次,对吧,串了一下,那这后面都是我们的实时表,对吧?这是我们的数据。这样总比你之前那样乱记好好背对吧,死记硬背要好一点,对吧?你用一个人的行为对吧,你把这个串起来不就好了吗?你想想,你想象一个人他在这个过程当中应该做啥事不就好了吗?对吧?好,那第三件事情。构建业务矩阵。到这边就要分实时表跟这个维度表了。对吧,啊好,那怎么构建呢?其实比较简单啊,那实时表呢,都在这儿,我把它拿过来啊,我只是举个例子啊,先这样把它拿过来啊,然后呢,我们要在这边写上什么,我们的维度表,维度表有哪些呢?比如说用户对吧。
11:02
刚刚说商品啊,然后呢活动。什么地区对吧,我随便写一写啊,你就把这个文要写在这儿好,那接下来这个表里边要哪些对吧,这个是事实表,需要哪些,用到哪些维度,怎么写,很简单啊这边。啊,当然这个呢,你都可以这样去处理一下。对吧,然后呢,后面我们就不处理了,在这里边,嗯,你看登录表登录这个事实要不要用户对吧?啊要不要地区活动商品,这这肯定没有嘛,对吧,根本不需要诶打叉那就知道,最后呢,一张表就可以出来,你就知道这个跟什么维度有关系,未来可以关联什么维度,对吧?构建大的一个实时表啊构建一个大的实时表。对吧,啊,这是业务矩阵,把它归类出来,诶你要算什么指标,根据这个对吧,在什么。维度下计算什么样的一个指标是不是都可以啊,对吧?哎,这个指标就出来了啊好,这是我们所需一个点啊呃,那接下来。
12:07
第四件事情。啊,前面呢都做完了,那接下来真正的做维度建模了。维建模,维度建模第一个呢,那就分层呗,对吧,Ods层,Ods层比较简单,保持原样不变,对吧,那这里边。他。是保持。数据。原貌。不做。修改。对吧,起到一个备份的作用啊,那第二件事情。创建。分区表啊,防止全盘扫描对吧,这是第二个,第三件事情,那当然是压缩了。三压缩对吧。减少存储空间,咱们现在用的是g zip吧,对吧,G zip进行压缩,减少磁盘空间啊,这是ods你要做的事情。第二个那就是。
13:05
Dim DM层要做的事情呢?在这儿已经写过了。我不写了,就做这么两件事情,第一个维度整合。第一个做维度整合,第二个就是用户拉链表。对吧,这是我们DM层要做的一个事情啊呃,那第三个DWD层。DWD层,我们该干嘛呢?那不就是。这个吧。你想想看。DWD层不就是选择用过程、生命力度确定维度、确定事实吗?对吧,然后呢,不行呢,可以换其他的实时表嘛,这是我们DWD层做的事情。
14:05
对吧,啊就这个,那这个维度建模,维度建模注意啊,到DWD层就结束了,DWS层跟维度建模没关系啊。能明白吗?DWS层跟维度建模没有关系啊好,那接下来第。五件事情,这是维度建模,维度建模呢,把ods DM dwd搞定呢,那接下来DWS还没有搞定呢,对吧?那第五件事情叫什么,DWS层是根据什么来构建呢?叫指标体系建设。对吧,这个才是我们的DWS层。DWS。对吧,那这里边要做的事情呢,我上面也写过了啊在。诶,在哪。指标这啊。直接把它拿过来。就好了,对吧,这里边指标你要去处理这些事情,然后呢,你的DWS就出来了,对吧,一定要注意维度建模呢,只是处理这个主要处理的是DM跟DWD嘛,对吧,处理的是这两层啊,而我们的指标题建设处理的是DWS层。
15:14
啊,找相关的指标可以合并对吧,那到这个为止呢,搞定了ADS就不用聊了,ADS就是需求,对吧,你想发挥没得发挥,你咋发挥啊,这是公司要求你求这个需求你发挥不了,你必须得求,对吧?是这样的一个意思,好,这是我们所看到整个数仓建模的流程,给大家整理了一下,对吧?未来应该怎么去做,如果面试的时候,你可能把这一套能够说清楚。啊面给面试官能不能把这一套建模的理论对吧,给他说清楚,最好伴随着一些什么呢?表最好了啊,比如说我拿这个事实表,拿哪个的订单,这个流程的实时表给你介绍一下,对吧,因为订单呢,相对来说我们介绍的也会更多。
16:01
对吧,就这意思。OK吧,啊下去呢,好好的要把这个自己要把它整理出来是最好的。
我来说两句