00:00
好,那么第二小节呢,我们了解一下数据仓库的概念啊。呃,那所谓的数据仓库呢,是为公司。制定决策其实就是我们的决策层或者管理层对吧,提供数据支持的,可以帮助企业改进业务流程,提高产品质量啊,因为我们对于我们所有的这个用户的业务数据产生了分析之后,我们可以更好的服务到我们的用户,那这样的话用户体验得到了提升。那我们未来的业绩也会更好,这个是我们的核心目标,对吧。好,那我们整个的内容呢,是这样的,首先呢,在我们现场环境当中,我们最重要的当然是买所当中的这一部分业务数据,比如说我们用户在下订单以后,那就会产生一个订单数据,同时呢,像我们的仓库,诶,那库存也会减一个,类似这样的,它都会产生一些数据,我们每天呢对这种数据要做分析,但这个数据呢,是落在我们的MYS里边的,我们要把它采集过来,有一些公司呢,这样的数据可能直接以日志的方式放在这个文件当中的,那我们也可以把文件数据采集过来,当然在我们本项目当中,我们只做了。
01:23
买搜狗当中的业务数据啊,那这个放在这儿呢,是告诉大家有一些公司呢,可能会把这种数据呢,以日志的形式放在文件里边,那碰到这种情况你也会做这样的一个事情就OK了,其实也比较简单啊,呃,好,那我们来看一下。那刚才我们所说的,无论是放在MY搜当中的业务数据,还是说放在文件当中的业务数据,我们呢,它都是由Java后台所产生的,我们要把这个数据呢,采集到我们大数据的集群里边,做我们的数据分析啊,所以呢,第一块我们要打通的这个采集通道啊,比如说你要是文件,那我们可以用这个框架做一个实时的监控,那如果你是业务数据,我们可以通过scoop做全量的导入,呃,同时呢,也可以采用Li CDC做增量导入,所谓增量呢,就是说你每产生一条,我就立马给它拉取过来,而犬量呢,一般来说,在生长环境当中,我们是按天来拉取的,也就一天之后,我们要把。
02:31
这张表的所有数据全部导入过来,当然这个具体哪些表用全量,哪些表用增量,这后续呢,我们会带着大家去分析啊呃,那接下来呢,到我们大数据集群当中来之后。开始是ods层,也叫做原始数据层,叫天元层,那这个是原始数据啊,原封不动的放在这儿,我们可能会采用压缩,因为原始数据呢,可能数据量相对来说比较大啊呃,那第二个DWD层明细数据层,这样呢,我们要把表所有的表给它拆开。
03:06
啊,做一些简单的过滤清洗,以及有一些敏感数据呢,我们会做脱敏处理啊DWS层也就是说我们的。聚合草。对这个数据呢,我们要对它进行一个聚合啊,当然是一个清量的聚合,比如说按天,按照用户,按照商品啊,把这个表呢,全部给它分开啊,当然这个在维度建模当中,我们会详细的聊,像DWDDWS这些表呢,我们该如何去构建啊,呃,那最后呢,是我们的ADS的,也就是说我们的结果表了啊,它可以对我们DWS再做最后统计,比如说每天每个商品的销量,我们有多少用户。登录了日活是多少类似于这样的,最终呢,形成一个数字啊,为我们可视化提供支持。
04:02
好,那数据仓库呢,并不是数据的最终目的地,那这就我们说的,所以我们还有第三个文档做,叫做数据的可视化啊,为数据最终做好准备,那数据仓库呢,准备工作包括备份,清洗,聚合,统计,对吧,它并不是说数据仓库把数据呢算到ADS就已经结束了,我们还要继续做最终的。报表啊,那在我们项目当中呢,最终要形成这个报表展示,同时在有些公司当中,我们可以形成用户画像做推荐。做继续学习对吧,那这样可以达到更好的服务于我们的用户,提高用户跟我们产品的粘性啊呃,最终呢,像这些内容我们刚才提到了,有很多东西呢,我们要每天去执行,那这样我们真的去手动去执行吗?而且像每天执行的这样的内容呢,我们肯定是晚上凌晨的时候去执行,那不可能说到了凌晨大家定个闹钟说诶凌晨了,我起来登录一下这个服务器,赶紧把任务执行一下,这是不现实的,对吧,那我们要使用一个框架。
05:10
屋,当然这个框架呢比较多,比如说doph in shadow,还有这个阿斯卡拍啊,或者说像linu自带的cable都可以做到这个事情,定时调度,它可以在我们Li当中进行一个配置,让当前这个任务呢,什么时候自动去执行,好吧,这是我们数据仓库整个的一个。概念。
我来说两句