00:00
好,那么第二块呢,我们了解一下数据仓库的概念啊呃,那我相信大家在现在呢,已经在看这个实时的数仓视频了,对吧?那么一定有这个离线基础了,所以实时这块呢,我们给大家再回顾一下啊呃,那首先什么叫数据仓库呢?是为企业制定决策提供数据支持的,那么我们平常公司当中,特别是电商公司,哎,促销搞一些活动,那么我们每次要搞什么样的活动,搞活动之后它的一个效果如何,下一次还需不需要搞这样的活动,或者说对于它的成本我们需要。需不需要进行一个把控等等一系列的问题,我们需要用数据说话,而不是领导层在那拍脑门决定,现在如果说你拍脑门决定,那是不靠谱的,对吧?我们用数据说话,所以呢,我们可以帮助到企业改进业务流程,提高产品质量,诶把握一下整个过程当中到底是哪一块出了问题,我们针对性的去解决这个问题就好了,对不对?好,那比如说在生产环境当中,我们数据主要来源my circle。
01:19
啊,也就是说我们的业务数据对吧,这刚才也提到了,好,那我们需要用采集工具将它导入到我们的集群啊,好,那我们要用的就是link。而flink我们用的是里边的CDC啊,用的flink CDC,那flink CDC呢,可以做到什么事呢?就是说将。他会去监控我们买circle的blo,监控买circle的blog,然后呢。当MYSO里边数据发生了增删改等操作,它就会写入相应的b logg,那我们弗link CDC呢,就会监控到这个blog,将数据拉取过来,接下来至于传输到哪儿,诶,那有写代码的人来决定了,比如说这边呢,我们最终会选择卡夫卡这样的一个消息队列啊,那在卡卡当中呢,做我们实时数仓的一个分层,那么接下来呢,看一下我们主要分这四层,Ods层,原始数据层啊,就保持数据原样不做改变。
02:30
第二,DWD叫数据明细层啊,那在这一层当中呢,我们需要将所有的表给它拆开,因为在ODS层的时候,我们是将所有的数据呢放到一个主题,而到了DWD,咱们可以把这个数据进行一个拆分啊好,那DWS层呢叫服务数据层,其实在这里边呢,就是一些宽表,比如说有一些事实表与事实表之间要进行关联,或者说呢,对于事实表里边的字段,我们要进行为表字段的补充,那像这些情况呢,我们都会形成一个大宽表,那我们就放到DWS层。
03:11
啊,那最后ADS应用数据层,那这一层呢,就是对DWS呢,做一个加工处理,更多的呢,做一些聚合计算,让我们数据呢,按照一定的维度给它聚合起来,形成我们的ADS最终的一个结果指标,但此时呢,这个数据还是在这,那我们最终要将数据做一个可视化的展示,或者说像这样的结果我们有什么用呢?对吧,那么第一步。可以做这个报表系统直接展示,比如说我们的平均交易额对吧,或者日均每日的一个增量啊,活跃用户数啊等等这些东西都可以直接形成报表,那么除了报表,在生产环境当中,像我们数仓里的数据还能够做到。
04:00
用户画像可以对我们的用户进行一个精准的分析,通过他平常的一些数据,产生的业务数据,购买的内容,我们可以做到精准的分析啊,可以让用户呢,在有时候不知道情况下,能够帮助他发掘他自己所需要的一些产品,更好的为我们用户提供服务啊,除了这些之外,我们还可以做推荐啊,那其实对于用户画像分析好了之后,我们更多的可以对它相应的进行一个精准的推荐,最终呢,我们还可以做机器学习,因为我们有数据对吧,所以总之呢,我们数据仓库并不是数据最终的。目的地。而是为了我们企业做决策做支持的,那为了可以做这个决策呢,我们要对这个数据呢,进行进一步的展示加工处理,对吧?这些东西就是我们的内容啊,那在数据仓库当中呢,我们主要是对这个数据呢做备份,清洗,聚合统计,哎,也就是账号,我们这四层所做的一个事情,对吧?这是我们数据仓库的一个概念,大家需要了解一下啊。
我来说两句