前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >经验分享实时数仓实战命名规范和分层设计~~

经验分享实时数仓实战命名规范和分层设计~~

作者头像
大数据老哥
发布2022-02-17 09:32:42
4.2K0
发布2022-02-17 09:32:42
举报
文章被收录于专栏:大数据解决方案

01ODS层规范

一. 命名规范

通常的命名方式是:ODS_应用系统名(或缩写)_数据库类型_(数据库名称可省略)_数据表名_加载方式(增量还是全量),表名不能太长,一般不超过30字。如:

ods_tmall_mysql_odersys_oder_info_di 或者 ods_tmall_mysql_oder_info_di。

-S 表示实时加载;

-I 表示增量,比如每天增量同步DI,每小时增量同步等HI;

-A 表示全量,比如每天增量同步DA,每小时增量同步等HA;

-H 表示历史表。

二. 抽取规则和策略说明

02DWD层规范

一. 命名规范

通常的命名方式是:前缀为DWD_主题名(缩写)_加工方式。

_H,按时加工

_D,按日加工

二. 加工规则和策略说明

三. 加工脚本命名和调度

通常加工脚本,调度任务名称名称和表名称相同。

03DWM层规范

一. 命名规范

通常的命名方式是:前缀为DWM_主题名(缩写)_功能描述_加工方式。

二. 加工规则和策略说明

三. 加工脚本命名和调度

通常加工脚本,调度任务名称名称和表名称相同。

04DWS层规范

一. 命名规范

通常的命名方式是:前缀为DWS_主题名(缩写)_功能描述。从DWD到DWM或者DWS层中,产生临时表或者加工视图,命名规范只是对应层前缀后加_tmp/v,如dws_tmp。例如:

dws_sales_order_analysis

二. 加工规则和策略说明

三. 加工脚本命名和调度

通常加工脚本,调度任务名称名称和表名称相同。

05DWA层规范

一. 命名规范

通常的命名方式是:前缀为DWA_主题名(缩写)_功能描述,如果是视图的话是DWA_V_主题名(缩写)_功能描述。另外如果是直接导出到在线系统侧的数据,尊重在线系统测的命名,并做输出记录,方便数据追溯和业务沟通。

目前公司dwa命名是按照数据集市的方式,采用dm为前缀的方式。

二. 加工说明
三. 加工脚本命名和调度

通常加工脚本,调度任务名称名称和表名称相同。

06DIM层规范

一. 命名规范

通常的命名方式是:前缀为DIM_维表类别(用户,日期,地址,标签),一般不超过30字。维表通常是一个大宽表,和事实数据配合方便上卷下钻进行分析。通常维表可能需要schema的变更,例如用户画像标签信息表,随着标签内容的增加,描述用户的维度信息增加,所以会基于用户基础信息表,用户画像标签信息表进行迭代加工,这时候应该保留历史数据和对应历史版本,设置保留存活时间TTL。

二. 维表设计开发

1. 维表设计字段冗余,为了使用时字段的全表扫描,采用列存储方式;

1. 针对缓慢变化维,保留历史数据和版本TTL为30天, 方便数据追踪,后续统一使用新的维表。

三. 抽取或者加工规则和策略说明

四. 加工脚本命名和调度

通常加工脚本,调度任务名称名称和ods表名称相同。

07层次调用规范

一. 背景说明

完成数据仓库的分层后,针对各层次的数据之间的调用关系作出约定。

二. 调用规范

①. DWA应用层优先调用数仓的DWS层数据,通常不允许DWA层跨过DWS层,从DWD层重复加工数据;

②. DWS应该积极了解应用层数据的建设需求,将公用的数据沉淀后,提供数据服务。同时,DWA应用层也需积极配合DWS层进行持续的数据公共建设的改造。避免出现过度的DWD层引用、不合理的数据复制和子集合冗余。

总体遵循的层次调用原则如下:

  • ODS层数据不能直接被应用层任务引用。如果DWD和DWS层没有沉淀的ODS层数据,则通过ODS层创建视图的方式访问。命名规范遵从DWD或者DWS的命名规范,视图必须使用调度程序进行封装,保持视图的可维护性与可管理性。
  • 从ODS到DWS层任务的深度不宜过大(建议不超过10层,包含临时表加工)。
  • 一个计算刷新任务只允许一个输出表,特殊情况除外。
  • DWM汇总层优先调用DWD明细层,可累加指标计算。DWM汇总层尽量优先调用已经产出的粗粒度汇总层,避免大量汇总层数据直接从海量的明细数据层中计算得出。
  • 有针对性地建设DWM公共汇总层,避免应用层过度引用和依赖DWD层明细数据。

滴滴顺风车实时数仓建设举例

在公司内部,我们数据团队有幸与顺风车业务线深入合作,在满足业务方实时数据需求的同时,不断完善实时数仓内容,通过多次迭代,基本满足了顺风车业务方在实时侧的各类业务需求,初步建立起顺风车实时数仓,完成了整体数据分层,包含明细数据和汇总数据,统一了DWD层,降低了大数据资源消耗,提高了数据复用性,可对外输出丰富的数据服务。

数仓具体架构如下图所示:

从数据架构图来看,顺风车实时数仓和对应的离线数仓有很多类似的地方。例如分层结构;比如ODS层,明细层,汇总层,乃至应用层,他们命名的模式可能都是一样的。但仔细比较不难发现,两者有很多区别:

  • 与离线数仓相比,实时数仓的层次更少一些
  • 从目前建设离线数仓的经验来看,数仓的数据明细层内容会非常丰富,处理明细数据外一般还会包含轻度汇总层的概念,另外离线数仓中应用层数据在数仓内部,但实时数仓中,app应用层数据已经落入应用系统的存储介质中,可以把该层与数仓的表分离。
  • 应用层少建设的好处:实时处理数据的时候,每建一个层次,数据必然会产生一定的延迟。
  • 汇总层少建的好处:在汇总统计的时候,往往为了容忍一部分数据的延迟,可能会人为的制造一些延迟来保证数据的准确。举例,在统计跨天相关的订单事件中的数据时,可能会等到 00:00:05 或者 00:00:10再统计,确保 00:00 前的数据已经全部接受到位了,再进行统计。所以,汇总层的层次太多的话,就会更大的加重人为造成的数据延迟。* 与离线数仓相比,实时数仓的数据源存储不同
  • 在建设离线数仓的时候,目前滴滴内部整个离线数仓都是建立在 Hive 表之上。但是,在建设实时数仓的时候,同一份表,会使用不同的方式进行存储。比如常见的情况下,明细数据或者汇总数据都会存在 Kafka 里面,但是像城市、渠道等维度信息需要借助Hbase,mysql或者其他KV存储等数据库来进行存储。 接下来,根据顺风车实时数仓架构图,对每一层建设做具体展开:

2.1 ODS 贴源层建设

根据顺风车具体场景,目前顺风车数据源主要包括订单相关的binlog日志,冒泡和安全相关的public日志,流量相关的埋点日志等。这些数据部分已采集写入kafka或ddmq等数据通道中,部分数据需要借助内部自研同步工具完成采集,最终基于顺风车数仓ods层建设规范分主题统一写入kafka存储介质中。

命名规范:ODS层实时数据源主要包括两种。

  • 一种是在离线采集时已经自动生产的DDMQ或者是Kafka topic,这类型的数据命名方式为采集系统自动生成规范为:cn-binlog-数据库名-数据库名 eg:cn-binlog-ihap_fangyuan-ihap_fangyuan
  • 一种是需要自己进行采集同步到kafka topic中,生产的topic命名规范同离线类似:ODS层采用:realtime_ods_binlog_{源系统库/表名}/ods_log_{日志名} eg: realtime_ods_binlog_ihap_fangyuan

2.2 DWD 明细层建设

根据顺风车业务过程作为建模驱动,基于每个具体的业务过程特点,构建最细粒度的明细层事实表;结合顺风车分析师在离线侧的数据使用特点,将明细事实表的某些重要维度属性字段做适当冗余,完成宽表化处理,之后基于当前顺风车业务方对实时数据的需求重点,重点建设交易、财务、体验、安全、流量等几大模块;该层的数据来源于ODS层,通过大数据架构提供的Stream SQL完成ETL工作,对于binlog日志的处理主要进行简单的数据清洗、处理数据漂移和数据乱序,以及可能对多个ODS表进行Stream Join,对于流量日志主要是做通用的ETL处理和针对顺风车场景的数据过滤,完成非结构化数据的结构化处理和数据的分流;该层的数据除了存储在消息队列Kafka中,通常也会把数据实时写入Druid数据库中,供查询明细数据和作为简单汇总数据的加工数据源。

命名规范:DWD层的表命名使用英文小写字母,单词之间用下划线分开,总长度不能超过40个字符,并且应遵循下述规则:realtime_dwd_{业务/pub}{数据域缩写}[{业务过程缩写}]_[{自定义表命名标签缩写}]

  • {业务/pub}:参考业务命名
  • {数据域缩写}:参考数据域划分部分
  • {自定义表命名标签缩写}:实体名称可以根据数据仓库转换整合后做一定的业务抽象的名称,该名称应该准确表述实体所代表的业务含义 样例:realtime_dwd_trip_trd_order_base

2.3 DIM 层

  • 公共维度层,基于维度建模理念思想,建立整个业务过程的一致性维度,降低数据计算口径和算法不统一风险;
  • DIM 层数据来源于两部分:一部分是Flink程序实时处理ODS层数据得到,另外一部分是通过离线任务出仓得到;
  • DIM 层维度数据主要使用 MySQL、Hbase、fusion(滴滴自研KV存储) 三种存储引擎,对于维表数据比较少的情况可以使用 MySQL,对于单条数据大小比较小,查询 QPS 比较高的情况,可以使用 fusion 存储,降低机器内存资源占用,对于数据量比较大,对维表数据变化不是特别敏感的场景,可以使用HBase 存储。

命名规范:DIM层的表命名使用英文小写字母,单词之间用下划线分开,总长度不能超过30个字符,并且应遵循下述规则:dim_{业务/pub}{维度定义}[{自定义命名标签}]:

  • {业务/pub}:参考业务命名
  • {维度定义}:参考维度命名
  • {自定义表命名标签缩写}:实体名称可以根据数据仓库转换整合后做一定的业务抽象的名称,该名称应该准确表述实体所代表的业务含义 样例:dim_trip_dri_base

2.4 DWM 汇总层建设

在建设顺风车实时数仓的汇总层的时候,跟顺风车离线数仓有很多一样的地方,但其具体技术实现会存在很大不同。

第一:对于一些共性指标的加工,比如pv,uv,订单业务过程指标等,我们会在汇总层进行统一的运算,确保关于指标的口径是统一在一个固定的模型中完成。对于一些个性指标,从指标复用性的角度出发,确定唯一的时间字段,同时该字段尽可能与其他指标在时间维度上完成拉齐,例如行中异常订单数需要与交易域指标在事件时间上做到拉齐。

第二:在顺风车汇总层建设中,需要进行多维的主题汇总,因为实时数仓本身是面向主题的,可能每个主题会关心的维度都不一样,所以需要在不同的主题下,按照这个主题关心的维度对数据进行汇总,最后来算业务方需要的汇总指标。在具体操作中,对于pv类指标使用Stream SQL实现1分钟汇总指标作为最小汇总单位指标,在此基础上进行时间维度上的指标累加;对于uv类指标直接使用druid数据库作为指标汇总容器,根据业务方对汇总指标的及时性和准确性的要求,实现相应的精确去重和非精确去重。

第三:汇总层建设过程中,还会涉及到衍生维度的加工。在顺风车券相关的汇总指标加工中我们使用Hbase的版本机制来构建一个衍生维度的拉链表,通过事件流和Hbase维表关联的方式得到实时数据当时的准确维度

命名规范:DWM层的表命名使用英文小写字母,单词之间用下划线分开,总长度不能超过40个字符,并且应遵循下述规则:realtime_dwm_{业务/pub}{数据域缩写}{数据主粒度缩写}[{自定义表命名标签缩写}]{统计时间周期范围缩写}:

  • {业务/pub}:参考业务命名
  • {数据域缩写}:参考数据域划分部分
  • {数据主粒度缩写}:指数据主要粒度或数据域的缩写,也是联合主键中的主要维度
  • {自定义表命名标签缩写}:实体名称可以根据数据仓库转换整合后做一定的业务抽象的名称,该名称应该准确表述实体所代表的业务含义
  • {统计时间周期范围缩写}:1d:天增量;td:天累计(全量);1h:小时增量;th:小时累计(全量);1min:分钟增量;tmin:分钟累计(全量) 样例:realtime_dwm_trip_trd_pas_bus_accum_1min

2.5 APP 应用层

该层主要的工作是把实时汇总数据写入应用系统的数据库中,包括用于大屏显示和实时OLAP的Druid数据库(该数据库除了写入应用数据,也可以写入明细数据完成汇总指标的计算)中,用于实时数据接口服务的Hbase数据库,用于实时数据产品的mysql或者redis数据库中。

命名规范:基于实时数仓的特殊性不做硬性要求

美团OneData数仓

OneData: 阿里巴巴提出的数仓建设标准

摘要

美团基于OneData思想和现有业务架构情况,提出了新的标准和目标:

实现方法:统一归口和出口 统一归口:业务归口统一、设计归口统一和应用归口统一,从底层保证了数仓建设的三特性和三效果 统一出口:

  1. 交付标准化
  2. 数据资产管理:统一维度,指标元数据出口等

基于此,实现了分层模型:

正常开发应遵循ODS-DWD—DWT-DWA-APP的流程,同时根据架构做出 开发规范:

  1. 正常流向:ODS>DWD->DWT->DWA->APP,当出现ODS >DWD->DWA->APP这种关系时,说明主题域未覆盖全。应将DWD数据落到DWT中,对于使用频度非常低的表允许DWD->DWA。尽量避免出现DWA宽表中使用DWD又使用(该DWD所归属主题域)DWT的表。
  2. 同一主题域内对于DWT生成DWT的表,原则上要尽量避免,否则会影响ETL的效率。
  3. DWT、DWA和APP中禁止直接使用ODS的表,
  4. ODS的表只能被DWD引用。
  5. 禁止出现反向依赖,例如DWT的表依赖DWA的表。
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-01-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据老哥 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 03DWM层规范
  • 04DWS层规范
  • 05DWA层规范
  • 06DIM层规范
  • 07层次调用规范
    • 2.1 ODS 贴源层建设
      • 2.2 DWD 明细层建设
        • 2.3 DIM 层
          • 2.4 DWM 汇总层建设
            • 2.5 APP 应用层
            • 美团OneData数仓
              • 摘要
              相关产品与服务
              数据库
              云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
              领券
              问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档