首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >数据仓库中如何创建拉链表?

数据仓库中如何创建拉链表?

作者头像
挽风
发布2021-04-13 14:26:58
发布2021-04-13 14:26:58
1.4K00
代码可运行
举报
文章被收录于专栏:小道小道
运行总次数:0
代码可运行

  某些表(如用户表)中的数据每日既有可能新增,也有可能修改,但修改频率并不高,属于缓慢变化维度,此处采用拉链表存储(用户维度)数据。

1 什么是拉链表

2 如何做拉链表

3 拉链表制作过程

步骤0:初始化拉链表(首次独立执行)

(1)建立拉链表

代码语言:javascript
代码运行次数:0
运行
复制
drop table if exists dwd_dim_user_info_his;
create external table dwd_dim_user_info_his(
    `id` string COMMENT '用户id',
    `name` string COMMENT '姓名',
    `birthday` string COMMENT '生日',
    `gender` string COMMENT '性别',
    `email` string COMMENT '邮箱',
    `user_level` string COMMENT '用户等级',
    `create_time` string COMMENT '创建时间',
    `operate_time` string COMMENT '操作时间',
    `start_date`  string COMMENT '有效开始日期',
    `end_date`  string COMMENT '有效结束日期'
) COMMENT '订单拉链表'
stored as parquet
location '/warehouse/gmall/dwd/dwd_dim_user_info_his/'
tblproperties ("parquet.compression"="lzo");

(2)初始化拉链表

代码语言:javascript
代码运行次数:0
运行
复制
insert overwrite table dwd_dim_user_info_his
select
    id,
    name,
    birthday,
    gender,
    email,
    user_level,
    create_time,
    operate_time,
    '2020-03-10',
    '9999-99-99'
from ods_user_info oi
where oi.dt='2020-03-10';

步骤1:制作当日变动数据(包括新增,修改)每日执行

(1)如何获得每日变动表

  a.最好表内有创建时间和变动时间(Lucky!)

  b.如果没有,可以利用第三方工具监控比如canal,监控MySQL的实时变化进行记录(麻烦)

  c.逐行对比前后两天的数据,检查md5(concat(全部有可能变化的字段))是否相同(low)

  d.要求业务数据库提供变动流水

(2)假设已经存在新增变动明细表(ods_order_info)

  数据库中新增2020-03-11这一天的数据

步骤2:先合并变动信息,再追加新增信息,插入到临时表中

1)建立临时表
代码语言:javascript
代码运行次数:0
运行
复制
drop table if exists dwd_dim_user_info_his_tmp;
create external table dwd_dim_user_info_his_tmp(
    `id` string COMMENT '用户id',
    `name` string COMMENT '姓名',
    `birthday` string COMMENT '生日',
    `gender` string COMMENT '性别',
    `email` string COMMENT '邮箱',
    `user_level` string COMMENT '用户等级',
    `create_time` string COMMENT '创建时间',
    `operate_time` string COMMENT '操作时间',
    `start_date`  string COMMENT '有效开始日期',
    `end_date`  string COMMENT '有效结束日期'
) COMMENT '订单拉链临时表'
stored as parquet
location '/warehouse/gmall/dwd/dwd_dim_user_info_his_tmp/'
tblproperties ("parquet.compression"="lzo");
2)将结果存入临时表
代码语言:javascript
代码运行次数:0
运行
复制
insert overwrite table dwd_dim_user_info_his_tmp
select * from
(
	--5 查询3.11号新增变动明细表数据,并打上 '2020-03-11' start_date 和  '9999-99-99' end_date开始结束日期
    select
        id,
        name,
        birthday,
        gender,
        email,
        user_level,
        create_time,
        operate_time,
        '2020-03-11' start_date,
        '9999-99-99' end_date
    from ods_user_info where dt='2020-03-11'
 	-- 6 使用 union all合并用户全量数据和变化之后的数据
    union all
    --4 更新用户表内发生变化的数据
    select
        uh.id,
        uh.name,
        uh.birthday,
        uh.gender,
        uh.email,
        uh.user_level,
        uh.create_time,
        uh.operate_time,
        uh.start_date,
        --3 如果关联上则表示该用户数据发生变化,则将end_date设为新增变动明细表日期减一天(T+1任务)
        --否则依旧为用户表结束日期('9999-99-99'),其它可能发生变化的字段也类似如此处理
        if(ui.id is not null  and uh.end_date='9999-99-99', date_add(ui.dt,-1), uh.end_date) end_date
from dwd_dim_user_info_his uh --2 用户表全量信息 Left join 变化表数据
left join
    (
        --1 查询3.11号新增变动明细表全量数据
        select
            *
        from ods_user_info
        where dt='2020-03-11'
    ) ui on uh.id=ui.id
)his
order by his.id, start_date;

步骤3:把临时表覆盖给拉链表

1)导入数据

insert overwrite table dwd_dim_user_info_his select * from dwd_dim_user_info_his_tmp;

2)查询导入数据

select id, start_date, end_date from dwd_dim_user_info_his;

我的博客即将同步至腾讯云+社区,邀请大家一同入驻:https://cloud.tencent.com/developer/support-plan?invite_code=8s7qax3sngdw

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2021/03/29 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1 什么是拉链表
  • 2 如何做拉链表
  • 3 拉链表制作过程
    • 步骤0:初始化拉链表(首次独立执行)
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档