对于上面的定义和概念,不了解大数据圈的人可能会觉得很抽象,并不能真正地理解。下面我通过数据中台用户之一业务分析师的视角具像化数据中台的一次应用场景,方便你能更好的理解它。
某电商平台 Q1 季度某个品类的商品销售额下降了 30%,老板要求小明给出问题的原因,并进行整改。要解释这个问题,小明必须从现有的数据入手,看看哪里出了问题。
上述就是小明的工作内容,都是基于数据中台上的功能开展的。
现在我们回过头来看阿里的数据中台建设的核心方法论:“OneData、OneService ”。对 OneData 的定义是“构建统一数据规范让数据成为一种资产,而非成本”。翻译成白话就是数据是要可复用的,可以沉淀为资产,是对除了数据建设流程还包括对数据开发的模型设计能力提出要求。比如今天供应链部门的小明提出的加工商品库存表数据,过几日市场部门也提出了商品库存表的数据加工,数仓同学就无需再开发一次,提供上次加工的表即可。这个看似很正常的事情,但如果没有指标系统、数据地图、数仓设计中心,业务方就像大海捞针要从上千、上万张表里找自己的需求表,就算能找到也不确定计算口径、数据来源是否是自己需要的,保险起见就是消耗开发成本重新加工一张。“OneService 致力于统一数据服务”:建设统一 API 管理平台(统一数据网关),提供对外提供服务。小明基于加工出来的库存表在表报系统构建报表,隔壁市场部基于存库报表构建了实时大屏。若干日后数仓同学想梳理数据资产,下线一些无用表。扫描到商品库存表时,通过数据血缘获取依赖它的下游表,但不知道有多少线上应用查询了这张表。这就造成了“上线容易、下线难”的问题。OneService 的好处之一就是对于数据开发,提高了数据应用的管理效率,建立了表到应用的链路关系。另一方面 API 接口对应用开发屏蔽了底层数据存储,使用统一标准的 API 接口查询数据,提高了数据接入的速度。
以上描述的小明工作内容穿插了大量的数据中台功能模块,按类别分大致如下:
类别 | 模块 | 核心功能 | 用户对象 |
---|---|---|---|
数据研发 | 数据集成 | 提供各种数据源的离线、实时数据传输 | 数据开发 |
数据开发 | 1、基于 Hive、Spark 的离线数据开发 2、基于 Flink 的一站式实时数据开发 | 数据开发 | |
数仓设计中心 | 模型设计开发平台,通过构建主题域,分层的方式组织数据。基于指标、度量、维度构建数据模型。 | 数据开发 | |
运维中心 | 1、任务运维:任务管理(重跑、补数)、任务治理、智能告警等 2、资源运维:提供调度、计算、存储等资源的看板 | 数据开发 | |
数据测试 | 提供数据对比、静态代码检查的测试工具 | 数据开发 | |
数据治理 | 数据地图 | 企业元数据门户,包括审批、通知等 | 数据开发、分析师 |
指标系统 | 统一管理指标的业务口径定义、消除指标口径不一致,形成企业的指标字典 | 数据开发、应用开发、数据产品、运营、分析师 | |
数据质量管理 | 基于用户配置的稽查规则全链路监控数据 | 数据开发 | |
成本优化中心 | 消除无用的、低价值的数据和作业,建立数据 ROI 评估体系 | 资产管理员、数据开发 | |
数据管理中心 | 数据生命周期管理、数据资产管理、数据备份与恢复 | 资产管理员、数据开发 | |
数据安全中心 | 数据脱敏、数据加密 | 数据开发 | |
数据服务 | 数据服务 | 提供统一 API 管理平台,基于数据平台数据,对外提供服务 | 数据开发、应用开发 |
数据应用 | 自助取数 | 基于指标、维度查询数据,支持自定义 SQL 查询 | 运营、产品、分析师 |
数据填报 | 上传自定义数据 | 运营 | |
报表 | 可视化报表 | 运营、产品、分析师 | |
大屏 | 可视化大屏 | 运营、产品、分析师 | |
可视化分析 | 界面化的数据查询,相对自助取数无需 SQL 能力 | 运营、分析师 | |
.... |