00:00
好,那接下来呢,我们要做一个测试,这边呢,我们先直接做一个打印,对吧,因为还没写完嘛,这边呢,我们先做一个打印C加V啊。这个呢,咱们叫trade SK order,然后呢,With PU。DOK吧,也就是说我们先关联两张为表来看一下啊,先不要着急对吧?好,那我们在这边做一个测试啊,叫trip。PU点。Print。把这个。拿回来pods。对吧,这个叫SQ,呃,然后在这边注意啊,有一个reduce,等会呢我们可以做一个对比,看它关联的时候数据有没有丢,对吧,可以统计一下这个条数,然后呢,前面像这些的信息,它肯定都是nu值,那我们等会儿来看一下,诶,它还是不是纳值关联之后,对吧,我们主要做这个事情啊,呃,当然让你现在直接开启测试肯定不行。
01:06
对吧,那因为我们的维表当中,Pix里边这些数据还没有,所以呢,得把MYS里边这个历史数据给它倒过来,对吧?好,那我们做一下这个准备工作啊呃,我呢,先把这里面有一些脏数据,我来给它去掉。这个用到哪几张表啊?嗯。啊,这个未来啊会用到我们来看一下,把把这几张表涉及到表我们都看一下啊,未来呢,肯定会用到这个SKU。对吧,这张表呢,没有添加过东西,一看就没有添加过啊,这个比较多,呃,然后呢,看这个123啊,等会我们来检查一下,还有这个trademark,还有这个PU这张表对吧。好,那我们加过数据的,你看这个把它看掉。
02:03
啊开这个二呢,应该没有动过对吧,二一百一十三个三呢更没有动过了,1099条应该是啊base动过这个三条呢就不要了。这属于我们自己脏脏数据对吧,不要了,SKU无所谓OK吧,好,那我们那也就是说你现在只要的SKU跟这个SKU,那我一把把这个先全部测了呗,因为等会儿这几张表是不是都要用啊,对吧,那我们要把这个数据干什么同步过来。要把它同步过来,对吧,用Maxwell的。不能的脚本是不是用那个脚本去同步过来,OK,那接下来呢,我们把这个。好,那我们要开的东西,那ZK卡夫卡麦克这些东西肯定要开吧,啊,先把这几个开起来。
03:04
那个卡不卡。还有这个max。对吧,啊,当然HDFS。Database Phoenix都要开对吧,因为我们等会要做测试了,这个程序开的东西就比较多了啊,可能有的同学电脑呢就比较吃力了。如果你电脑内存太小的话,嗯。好,那我们不着急去开这个。因为要等到安全模式退出才可以啊。不着急。包括有同学可能菲hoeni斯连接有问题对吧?一样的啊,你也得等这个h base初始化完成,你看我这边好像挺快的,因为我把里面表都清过一回,我里边有很没多少表,所以我启动非常的快,那你们呢,可能这个表比较多,它启动由于你的机器内存又给的不是很高,对吧,可能启动呢比较慢啊,你要等一会儿啊,等会儿呢,我会告诉你怎么去看啊。
04:15
好,那这边。安全模式退出了,那我可以启动这个。好,那这边呢,哈杜。10216010对吧?啊,那这边启动启动之后呢,你不要光看这边有没有,So,你重要的看什么呢?下面这个use the table啊这个system table,它有没有加载成功,看这个情况就加载成功了,所有的呢都是on,这后面都是零。看见没,这后面都是零,只有第一个是一个正常数字对吧,其他大于零的好,你要是表太多,那应该说这么多表我我你看我这比较少。
05:01
对吧,啊,那有的人说可能那我那边表那么多,那这个东西应该怎么办呢?对吧,你呢,你不要看这,你直接看这就行了,你不要看上面了,对吧,上面一个一个看比较麻烦,再看这这是绿的,OK,那有可能你这是黄的红的,那肯定有问题,你再看一下出了什么问题。OK吧,这是斯一个访问啊,呃,那接下来呢,我们进到这个菲hoi斯里边,把我们之前那两张表给它干什么,给它删了啊,就不要了。因为之前里边我们还造了一些数据,但是那个数据呢,倒不是什么影响,但是呢,我们就给它删掉呗,没必要就跟那这个保持一致就好了,对吧。啊,感叹号。Table,那我们筛一下drop table啊,把这两张表,我们之前做测试用的两张表给它干掉啊。开这个一。好,那还有一个是这个base trademark。那咱们这个时候呢,就没有了这个库里边的表了,没问题对吧?好,那接下来我们最重要的干什么事呢?要。
06:08
同步这个数据啊,那在这个之前呢,我们最好把开一下,省得等会做测试的时候又忘了,因为刚才我们提到有red对吧,好C到这个red啊。啊。 redso.com RA,好,那这边呢,我们也开一个red的客户端啊red。杠H。102啊,然后呢,杠杠aw啊,这个呢可以显示中文啊,然后呢,在里边也不需要这个双引号的转译了,可以加一个这个参数啊。要不然中文的话会显示乱码啊,当然我们这个数据嗯,你也不会在里边看,也无所谓,对吧,如果说在这个客户大家看有一些中文的话,对吧,那你要加一个它啊,要不然就是乱码。
07:03
好,那这个时候呢,我们要将这个数据导进来,把这个维表数据导进来,对吧,这个时候要依赖于谁呢?首先你往这里面写数据肯定要启动谁。Dim。Function。Dim。对吧,要用DM风往外写,所以呢要启动它。啊,要启动这个。OK吧,他是负责往外写的,OK,那我们先呢把它。起起来。对吧,先把表,哎,这个不够啊,吴旭,等会儿。这个对我们的建表语句不太够对吧?好,那我们呢,在Phoenix里边把这个所有的微表都创建起来,对吧?那也就是说第一步我们应该先干什么,先在这里边去添加。数据。对吧,先在table process里边把我们要的表肯定都添加上,那这个呢,就不一个一个写了,那怎么做呢,来注意看啊,把这个呢删掉。
08:03
把这个删掉,这张表删掉,然后呢,用这个搜来啊,在资料里边有一个table process初始配置。看到吗?诶把它去执行一下啊来。运行SQL文件。呃,资料里边对吧,在这个叫table process初始配置运行。好,刷新一下。咱们的表就有了,那这张表里边呢,就是我们要的所有的这个维度表。OK吧,好,那这个时候呢,可以去启动我们的这个程序了,先不管怎么样把这个表建立一下,对吧?啊。把它提起来,等会儿呢,我们再去做这个初始化。好,那现在呢,他会去这个。见表。对吧,啊,那我们等一下啊,对这个让他见着吧,无所谓对吧?好呃,那关键的问题呢,我们要做初始化,大家呢,应该是有这样的一个脚本,对吧,有。
09:08
其实你们呢,肯定有这样的一个脚本。ACD到B。你们有一个导这个初始化事实表的一个。脚本。对吧,做实时表的一个初始化,因为像那个维度表呢,你要做的每日全量,你就可以不用初始化,历史数据不用导了,那每日全量每天倒都会带着这个历史数据就不用管了,对吧?啊那这边呢,同样的我有一个这样的一个。DM那个脚本。这是用来初始化看啊ma的stop刚database,诶这个库呢,我们可等会改一下啊呃,Table到了一通过参数,然后呢去初始化,那这里边呢,就是我们刚才写的那些为表对吧?好,那我可以做一个修改。
10:01
一是G回到诶一是G。啊,我刚才摁错了。好,那我把这个库名改一下对吧。那这个脚本在哪呢?那些同学说这个脚本还要我自己写吗?呃,不用,当然这个脚本对你们写也不难,因为你离业书仓也写过类似于的脚本,对吧,这个在这。在这个位置模拟数据,6.3节之前我们呢,还有一点东西没有聊对吧?呃,那么就在这。OK吧,这个脚本在这儿啊,你把它拿一下,然后呢,加一个知音权限,然后去运行就可以了。OK吧啊,然后去运行就行了,行,那这个时候呢,我们的脚本我这边已经有了啊,我就把库改了对吧?好,那接下来呢,我们去执行这个脚本,注意在执行这个脚本的时候啊,一定要开启一个Maxwell啊,因为你不能to,那就是说我又不读这个log,你不能to的功能也需要这个。
11:12
Macel呀,对吧,也需要的啊,所以呢,你Excel得开啊得开,然后再去执行才可以OK吧,好,那就点杠DM,嗯,诶我看一下这个地方。啊对,用O啊这个参数。点个。当然你可以在这边先看一下建表语句对吧,这边都建完了啊,那这个初始化这有好多张表对吧。那这边呢,就快up,疯狂up,他会把历史数据倒过来对吧。等会呢,我们再去检查一下这个数据量的一个问题。
12:00
你看这个就是不的complete的对吧?啊,完成的这个我们是不要的,看见没,每一张表开头跟结尾都有一个,都有两条数据吧,对吧?啊每每个表都是这样啊。好,这个应该是用户表,用户表呢比较大对吧,用户表。数据量相对来说大一点啊。呃,PU呢,也导完了,叫to complete,这是我们自己写的这个异常信息,也不是异常信息吧,就是正常输出的对吧,正常输出的一个数据啊好,那么接下来呢,我们来看一下这个里边的数据,那我们来对比一下啊,首先。Skufo看一下多少条数据,SKUFO35条数据对吧,那我们直接select。Kind。心。From叫这个库点SKU啊。35条没有问题对吧,那接下来呢,我们看。A12点来找到SPU这个就不要了,对吧,少一点。
13:03
在这12条没毛病吧,总共12条啊,那这边你看这啊共12条对吧,要没问题啊呃,继续。CATEGORY123对吧,一。一呢17条没问题吧,共17条。好,来家看二二呢,总共113条对吧?啊,这个我们只是确认一下调出就行了,二一百一十三条,因为我们表呢,整个是全部清空重建的,大家看到了对吧?好,那接下来三。三呢,应该是1099条,看啊,这是第二页。这是第二页啊,第二页共99条,第一页呢1000条嘛。第页1000条对吧,1099条好,那这个是。31099没有问题对吧,最后一个被trademark这个呢是一条数据。11条对吧,好,那被trademark。
14:01
嗯,在这儿对吧。11条没毛病吧,那我们现在呢,就看到了这个全部都可以了,维表都导入了,这样你才能够去做测试,如果说你在测之前没有做这个,大家一定要你到时候你们做测试也要做一下啊,因为有可能这个维表你就漏了,你知道吧。然后呢,你这个数据少了,那这边呢,疯狂打印timeout,就是等会儿做测试的时候,疯狂打印这个测试啊,疯狂打印谁呢,打印这个东西。在这打印timeout对吧,好,那咱们可以这样。疯狂打印timeout,那有可能就是你的数据完全就没有,你维表根根本就没做校验,对吧,你没有这个维表数据,那肯定会打印那个timeout超时出不来嘛,OK吧,好这块呢,我们就可以。
我来说两句