温馨提示:文本由机器自动转译,部分词句存在误差,以视频为准
00:00
刚才呢,我们了解了我们所有的框架。那接下来有一个很重要的问题,那这些框架他们如何工作呢?那每一个框架呢,又在什么位置,起到什么样的一个作用呢?对吧?所以呢,我们通过一个系统的数据流程来给大家去了解一下,大家做到心中有数,诶每个框架它用在什么地方,对吧,起到什么样的一个作用好。呃,那首先呢,在生产环境当中,我们可能通过web端,也可能通过APP去访问到我们的服务,那在账号后台呢,它就会。将数据保存到这个my sol当中,那接下来就是我们大数据要开始干活了,其实这一块呢,在生产环境当中是Java后台他们所做的事情。那我们首先。要把这个数据。导到我们大数据集群,也就哈多宝做存储,我们之前提到了用HDFS,那怎么导进来了两条线还记得吗?一个是每日的。
01:03
全量,还有一个呢,是增量来一条就导一条,对吧,那就涉及到两个,第一个增量,我们用CDC,呃,然后呢,把它。传到我们的卡夫卡。最终呢?要用去消费,我们开发数据,把它写到HDFS,那另外一方面呢,我们可以用S直接将数据导到HDFS,那那可能会想,那似乎我不是比这个第二这个线。这条线更为方便吗?但是没办法,在生态环境当中,我们有一些表啊,是需要每天做这个增量同步的,并不是所有的表都适合用全量同步,其实大家能感觉到全量跟增量。它一个点就在于全量的好处,简单对吧,单条线简单但是。数据量大呀。每天都是一份全量的数据,数量大,所以呢,它适合的是什么?这种数据量相对来说比较小的表。
02:02
啊,那增量它虽然又过程比较复杂,但是。它在于我只把更新的或者新增的数据倒过来。以前历史数据呢,我并不懂,所以我的数据量呢要小很多,对吧,各有优缺点啊,其实最根本的一个点在于这张表本身的数据量大小是什么样的一个情况啊,好,那我们把数据采集到HD Fi之后,就要对我们进行建模分层处理了,那我们用的是have on Spark。啊,分成原始数据ods层,然后。维度层D。明细数据层DWD。汇总数据,也就是我们之前提到的轻度聚合层。最后数据应用层我们的ADS啊,把这些搞定之后,我们每天呢,通过scoop也把这个结果导出到MYSQL。啊,当然那这个MYSQL跟这个MYS并不是一个服务,当然当前项目我们为了简单,我用的是同一个MY色克的服务,但生产软件当中呢,其实这边是Java。
03:12
所维护的这个呢,是我们大数据自己所要搭建的一个MYSQL,当然MYSQ搭建的比较简单,对吧?啊,我们到时候自己搭一个也行啊,当然呢,在本项目当中呢,简单我用一个服务啊,用两个不同的数据库给它弄一个区分就好了。呃,最终呢,要把这个结果数据呢,做可视化展示啊,那整个的呢,需要用到。屋做定时调度啊,最终呢,形成这样的一个报表,这样呢,公司的管理层看起来会更舒服一些啊,那大家了解到我们的框架,这里边所涉及到的框架,它各自处在什么位置,以及。每个人起到什么样的一个作用,对吧,通过一个数据流程,把我们刚才所涉及到的框架呢,全部给它串联到一起了啊。
我来说两句