温馨提示:文本由机器自动转译,部分词句存在误差,以视频为准
00:00
好,那接下来呢,我们看到第二节叫项目框架,其实就是对刚才我们这几个问题的一个。回答啊,第一个技术选型。技术选型考虑的主要因素呢?有数据量的大小。业务的需求、行业内经验,这个很重要。如果我们在一家中小型公司。起步做这个离线收仓,那我们更多的应该参考一下大厂是怎么玩的,因为人家呢已经。弄了很多年了吧,对吧,人家经验肯定是有参考价值的,技术的成熟度啊,那这个很重要,因为有可能他变化的很快的话,那你不断的要更新这个框架,这个就很麻烦,未来对吧,开发的维护成本以及总成本的预算,那你公司当中能给你大数据部门拨多少钱呢?这也是我们需要去考虑的啊,因为会涉及到服务器的学习,我们到底是用云主机还是用服务器。
01:01
物理机对吧,好,那接下来我们第一个是技术选型啊,技术选型呢,这我们这中间涉及到了一个采集,采集呢我们采用的可以用。日志数据对吧,呃,弗林CDC增量四库全量卡夫卡是一个消息队列和一个作为一个采集通道啊。第二处于存储,那主要有两个,一个是MY搜QL,一个IDFS,那MYSQL呢起到两个作用,第一我们账号后台的业务数据本身是存到MYSQL,我们需要给它导过来,那我们导过来之后将数据是存到HDFS的,第二最终呢,我们HDS层还在,我们HDFS在我们数据仓库里边,这个呢,我们做可视化展示就很不方便,因为IDF访问呢,它相对来说比较慢一点啊,那我们最终呢,也要把数据导出去,来形成我们的可视化报表,我们就放在马里边啊。呃,那接下来数据计算我们采用的是have,然后呢,以Spark作为我们的引擎来做计算的啊,那接下来任务调度数据的最终可视化,我们用的是super set啊,这样呢,我们就可以把我们整个内容框架都。
02:11
罗列了一遍对吧。好,这是我们技术选型的问题。
我来说两句