温馨提示:文本由机器自动转译,部分词句存在误差,以视频为准
00:00
好,那下来是第二交易局主题当中啊,咱们咱们算一个这个退单啊,算一下每天的退单数以及退单人数,那这个呢就直接呃退单人数count,这个退单数呢,就是some啊每个人,因为我们之前按照人,按照用户力度进行统计了这个什么。退单一个DWS层的表,也就是说最后一张这张表对吧。好,那这个建表语句拿过来,然后呢,从这张表里边直接过滤出来这个数据啊,然后呢,直接。他选就好了。呃,咱们现在呢,没有了这个。对单的一个状态,我们就直接用这个啊。好,查一下。退单的人数。啊,在这儿好,呃,那这张表呢,是这样子的,因为每天呢,我在我们回过头来说这个事情啊,因为这张表跟刚才那张表还不一样,刚才那张表呢,我们做了一个分区表,大家还记得吗?每天的一个分区里边呢,有这么几张数据,对吧?当然生产环境当中呢,看你的品牌,如果你的品牌有几万个,那一天就几万条数据,而我们现在呢,是要求。
01:16
每天退单的人数,每天退单人数,那这样的情况呢,这个需求啊,每天只有一条数据,那如果说我们在算多次的情况下,那每天一条数据,每天一条数据,如果你直接。Override,那你投第二天的数据,把第一天数据覆盖掉了不好,那也就是说我直接写入呢,我不用overri。对吧,啊,我直接写入啊,那你写入的话,是不是每天一个小文件,每天一个小文件,每个文件里边只有一条数据,那这也是不合理的,小文件太多了,对吧,那咱们呢,把这个S做了一个修改,怎么做呢,这样。查询他自己UN上,诶新的对吧,比如说我第一天呢,是三月22 3月12号,第二天呢是三月这个13号没问题吧,3月13号呢,假如说是二十五二十八啊是这样的数据,我呢覆盖掉它不合适啊,那给他一个新文件也不合适,那怎么做呢?把它查出来,这个呢,就是新的搜狗,刚才我们执行的搜狗把它应利的到一起,然后重新把它覆盖掉这张表,那么它就会有两条数据,而且呢只有一个文件,那这样的话就相当于我们主动做了一个合并小文件,对吧?所以呢,我刚才把这个粘掉把它。
02:36
干掉了啊,先把我们正常的思路搞清楚,然后呢,再了解到,诶我为什么我们这样写,这样是解决了一些小文件的问题啊,同时呢,嗯,那也就是说我直接覆盖掉,覆盖掉的话,你要不做分区那也有问题,那你老的数据就没了,对吧?数据呢,我们尽量的还是不要丢得保留着,OK,这个应该能理解吧,就这个是咱们具体的一个操作啊。
我来说两句