Loading [MathJax]/jax/input/TeX/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >详解数据中台的底层架构逻辑

详解数据中台的底层架构逻辑

作者头像
肉眼品世界
发布于 2021-09-27 04:17:02
发布于 2021-09-27 04:17:02
1.2K0
举报
文章被收录于专栏:肉眼品世界肉眼品世界

数据中台到底是什么,几年过去了,也一直众说纷纭。

笔者认为数据中台不应该是一个单纯的系统或者是一个软件工具,而应该是一套架构、一套数据流转模式。

数据中台需要采集数据作为原材料进行数据加工、数据建模,然后分门别类地储存,再根据实际的业 务场景,打造各类数据服务(含数据应用平台)从而实现对业务的赋能加速。

但以上流程的实现,需要有对应的系统与产品作为支撑,那么基础的数据中台到底应该由哪些系统或者产品组成?

这里我们可以先来看一下几个企业的数据中台架构。

可以看出,虽然每个企业由于自身业务的不同,衍生出来的数据中台体系都有所不同,但大的架构方面是基本统一的,都需要通过一个“数据采集接入”-“加工存储”-“统一管理”-“服务应用”的阶段。

这里笔者认为《数据中台产品经理:从数据体系到数据平台实战》一书中总结的数据中台架构是比较具有普适性的, 不论是互联网行业、还是传统行业,都可以在该架构上进行改造,设计建设自己的中台架构。

总体来说数据中台的功能架构由大数据平台、数据资产管理平台与数据服务平台三大部分组成,其中在数据服务平台中自助分析平台与标签管理系统的应用场景最为广泛。

1、大数据平台

大数据平台是数据中台的基座,我们也可以把大数据平台称为大数据开发平台,它需要具备与大数据相关的开发能力,提供数据存储、数据清洗/计算、数据查询展示及权限管理等功能。那么,应该如何建设上述功能与服务?是不是拥有了上述能力就等同于成功打造大数据平台了呢?

其实我们可以发现各公司的大数据平台系统架构其实大同小异,各类架构都包含了数据采集组件、数据存储组件、数据计算引擎、数据权限与安全组件,以及集群管理与监控组件等。

除了少数像阿里这样倾力打造自研“飞天”系统的企业,其他企业在底层组件选用上,还是以 Hadoop 生态构建的技术体系为主,依托各类开源组件进行优化改进与二次开发。例如,数据存储组件可以选择HBase、Hive等组件,数据计算引擎可以选择Spark、Flink等分布式计算引擎。

既然大家选用的组件相同或者相似,那为什么最终各企业大数据平台的服务能力还是存在差距呢?这有些类似于购买零件组装台式电脑,零件不需要选最贵的,而是要根据实际需求来选择最适合的。

好用的大数据平台需要拥有为用户解决问题的能力。因此,数据中台的大数据平台建设不是比拼引用了多少新技术、覆盖了多少技术组件,而是要看它能否解决数据中台建设中所面临的复杂数据现状,能否成为数据中台打破数据壁垒的技术保障,能否提供简洁有效的数据处理工具,如提供自助配置式的数据采集与数据清洗工具等,以及能否提供更多的附加价值。

数据中台的大数据平台建设,可以避免各事业部技术团队各自搭建大数据集群所带来的资源浪费。统一的、成熟的大数据平台对企业来说,不能一蹴而就,需要循序渐进、分步实施,在持续迭代中构建企业的大数据平台生态。

2、数据资产管理平台

数据资产管理平台主要解决数据资源的管理, 数据资产遍布在各个大数据组件中, 有 hive 的表, 有 hbase 的表, 有 druid 的 datasource, 有 kafka 中的流, 各个组件的管控系统很难互相打通, 所以需要一个统一的数据资产管理服务, 来统筹大数据资源的管理。

随着大数据平台的建设,构建数据中台的数据体系成为可能,通过对各业务线数据的归类整合,我们可以构建出各个数据主题域,完成数据的规范存储,形成数据资产,进而完成数据资产管理。

在数据中台体系中,数据资产管理平台主要由元数据管理与数据模型管理组成,下面让我们分别了解一下。

  • 元数据管理

讲述元数据管理,我们需要先弄清楚什么是元数据。

元数据(MetaData)通常被定义为:关于数据的数据(Metadata),或者描述数据的数据(data about data),对数据及信息资源的描述性信息。元数据是所有数据中最重要的数据。

这里举一个最通俗的例子。当我们去图书馆借书时,直接面对数以万计的图书,自然难以寻找,但是你通过在图书馆查询系统中输入这本的书名、作者、出版社等信息,获取就能准确的图书位置。那么这些书名、作者等信息,就可以理解为元数据,而图书的存放位置、借阅历史记录等,则是我们系统中的普通数据。

数据库中,每一张数据表的表名、创建信息(创建人、创建时间、所属部门)、修改信息、表字段(字段名、字段类型、字段长度等),以及该表与其他表之间的关系等信息都属于这张数据表的元数据。

其实,元数据有多种分类方式,笔者更倾向于按照元数据的用途来区分,总共分为三类:业务元数据、技术元数据和管理元数据。

►业务元数据:描述数据的业务含义、业务规则等,包括业务规则、数据字典以及安全标准等多项内容。通过明确业务元数据,让人们产生统一的数据认知,消除数据歧义,让不懂数据库的业务方读懂数据表的内容。

►技术元数据:描述数据源信息、数据流转信息及数据结构化信息,主要服务于数据开发人员,让开发人员明晰数据表结构与所依赖的上下游任务,主要包括库表字段(存储位置、数据库表、字段长度和类型)、数据模型、ETL脚本(调度信息)与SQL脚本等。

►管理元数据:描述数据的管理归属信息,包括业务归属、系统归属、运维归属以及数据权限归属等信息,是数据安全管理的基础。

所以有人说,元数据记录了数据从无到有的全过程,就像一本有关数据的“字典”,让我们可以查询到每一个字段的含义与出处,同时它又像是一张“地图”,让我们可以追溯数据产生的路径。

通过对数据体系的建设,数据中台的元数据汇聚了企业各业务线与各系统的数据信息,让数据中台具备了提供全域数据资产视图的能力,实现了统一数据资产查询与获取入口的目标。

元数据管理包括对元数据增删与编辑管理、版本管理、元数据统计分析与元模型管理。通过上述功能模块,有计划地进行数据体系的落地实施,实现数据中台元数据的结构化与模型化,这样既可以避免元数据出现杂乱与冗余的现象,也便于用户查询与定位数据。

  • 数据模型管理

介绍元数据时,我们提到技术元数据中包括数据模型,这里的数据模型就是指使用元数据进行数据建模的工作产物。

根据底层数据的使用情况,如数据表的关联信息、SQL脚本信息(数据聚合与查询信息等),来获取元数据,可以更好地完成对业务的抽象,提高建模效率。

数据模型是数据整合的有效手段,它完成了各数据源之间的映射关系设计,为数据主题建设提供了“实施图纸”。

同时,在数据建模过程中,通过明确数据标准,可以确保数据的一致性,还可以消化冗余数据。

至于数据模型管理,其是指在数据建模过程中,通过既定的数据模型管理制度,实现对数据模型增、删、改、查的管理,同时遵守数据标准化与数据统一化的要求,确保数据质量。

3、数据服务平台

  • 自助分析平台

自助分析平台,也就是商业智能平台(BI平台)。BI平台目前已经是很多企业的标配,目前BI商用市场的行业竞争日趋激烈,进场者可以分为如下3类:

►国内BI厂商,典型代表为连续多年国内市场占有率第一的帆软

►国外BI厂商,如Tableau

►互联网大厂内部孵化

BI 平台是数据中台服务能力的主要输出方,要想让数据中台发挥出应有价值,那么BI平台的建设必不可少,所以需要将BI 平台建设划分在数据中台体系下。综合来看,BI平台应该具备如下能力。

(1)数据接入

除了数据中台的自有数据源,BI平台还需要支持外部数据源的接入。其接入方式,主要有如下3种。

►文件型:支持Excel等文件数据的上传。

►数据连接型:支持Mysql、Oracle等数据库,以及Hadoop、Spark等大数据平台(数据中台的大数据平台也在此列)。

API读取:支持通过API获取第三方系统数据。

图例:帆软BI平台支持的数据源

(2)数据处理

BI 平台需要能为用户提供数据建模工具,帮助用户创建目标数据(数据集),其提供的功能包括拖拽表字段、自动识别维度/指标、自定义视图语句、预览数据、设置虚拟字段、函数计算、设置参数等基本操作,以及多源异构的 JOIN/UNION等数据处理功能。

FineBI自助数据集数据处理界面

(3)数据分析与可视化

在数据处理的基础上,BI 平台还需要为用户提供丰富的图表制作和联机分析处理(OLAP)操作,让用户在前端页面完成数据分析与数据可视化等工作。

其操作流程如下:用户选择处理后的数据集,对维度与指标进行筛选过滤,然后通过上卷下钻、图表联动、报表跳转等操作,完成业务需求的分析,同时BI平台会为用户提供可视化图形组件,使其最终完成可视化内容的设计。

(4)内容分发与基础服务

BI平台需要具备分发可视化内容,并进行查看权限与数据权限控制的能力。主要的分发方式包括BI平台、移动BI(App)、数据大屏、邮件、链接访问,以及第三方嵌入等方式。

同时BI平台还需要具备基础的运营管理、角色管理、帮助中心与消息推送等功能。

只有满足以上功能、具备了多维分析、数据可视化与数据大屏等服务能力的BI平台,才可以最大限度的发挥在数据中台体系中的价值,有效地帮助分析师与运营团队提升工作效率。

  • 标签管理系统

除了BI平台,标签管理系统也是数据服务的重要应用方向之一。目前,业务部门面临着大量的精准营销场景,这些千人千面的推荐、推送需要基于一个完善且准确的用户画像来实现,而用户画像的构成又需要由大量、全面的用户标签来支撑。

因此,标签数据作为个性化业务应用的基础数据,其可信度与有效性就成了衡量用户画像成熟度的关键指标。

我们可以把标签管理系统看作用户画像系统的基座,基于数据中台打造的数据体系,可以顺其自然地打通标签治理中的数据壁垒,构建企业级的、统一认可的用户标签体系,并由此打造一个企业级的用户画像系统。

数据中台的标签管理系统,主要具备以下功能。

(1)用户唯一性识别

很多企业内各业务线都有自己的独立用户识别体系,如在 58 集团内就有 58设备指纹、安居客唯一用户、招聘自然人、金融自然人等多种用户识别方式,但是这些识别方式大部分是服务于单一业务线的,各业务线内的标签也是面向本业务的独立用户标识进行研发的。

数据中台的标签管理体系,可以提供统一的用户识别服务,将各业务线的独立用户标识进行关联和统一,从而打通面向整个企业的独立用户识别和标签交互转换方案。

(2)标签体系管理

标签体系管理的主要工作是制订标签数据和信息交互方案,打通用户画像研发和服务中的信息及数据壁垒,提供标签接入、可视化标签信息展现、可视化标签权限控制、可视化用户标签分析、可视化人群定向提取与可视化相似人群扩展(Lookalike)等功能。

(3)标签数据服务

标签管理系统,需要提供用户画像研发和应用过程中涉及的标签提取与查询等服务,以标准化服务接口(API)的方式将相关解决方案提供给各业务方,支持业务方基于数据中台的能力,打造业务线的个性化服务。

除了商业智能BI和标签管理外,各企业还需根据自身所处行业的特性去进行数据应用价值的最大化挖掘。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-09-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 肉眼品世界 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
读《数据中台-让数据用起来》笔记整理
这本书是我和中台战略一起购买的另外一本中台方面的书,今天读完前面4个小章节,并对整个书籍内容做了下泛读,整体质量还是不错,但是比中台战略要偏技术化点,适合数据规划和数据架构师阅读。
人月聊IT
2025/06/24
1010
读《数据中台-让数据用起来》笔记整理
深度剖析数据中台架构图,铸造数字文明的基石
🔥🔥 AllData大数据产品是可定义数据中台,以数据平台为底座,以数据中台为桥梁,以机器学习平台为中层框架,以大模型应用为上游产品,提供全链路数字化解决方案。
用户11518204
2025/02/26
3382
深度剖析数据中台架构图,铸造数字文明的基石
数据中台设计方法论
横向规划即在数据中台规划初期,需要打通企业各个业务系,打破数据孤岛现象。其实就是我们建设数据仓库的阶段。比如电信业务,我们要把客户、账务、客服、营销等业务板块打通数据,全盘考虑,融通数据形成数据资产。
数据社
2020/05/29
1.1K0
数据中台设计方法论
如何设计数据中台
横向规划即在数据中台规划初期,需要打通企业各个业务系,打破数据孤岛现象。其实就是我们建设数据仓库的阶段。比如电信业务,我们要把客户、账务、客服、营销等业务板块打通数据,全盘考虑,融通数据形成数据资产。
数据社
2020/05/28
1.6K0
如何设计数据中台
数据中台知识体系
数据中台是一套可持续“让企业的数据用起来”的机制,是一种战略选择和组织形式,是依据企业特有的业务模式和组织架构,通过有形的产品和实施方法论支撑,构建的一套持续不断把数据变成资产并服务于业务的机制
大数据学习与分享
2024/05/18
6330
数据中台知识体系
【金猿产品展】数创平台——美创科技数据资产管理套件
数创平台面向政府与企业客户,一站式提供数据发现、分类分级、集成、治理、服务、资产运营等核心能力,可服务于数据治理、数据仓库建设、数据中台落地、持续数据管理、数据安全治理等诉求,实现数据资产常态化管理,为顶层业务应用赋能,助力政企数字化转型。
数据猿
2021/12/28
4760
【金猿产品展】数创平台——美创科技数据资产管理套件
从数仓到数据中台,谈技术选型最优解
21世纪的第一个10年,企业级数据仓库(EDW)从萌芽到蓬勃发展,“IOT”( IBM、Oracle、Teradata)占领了大部分市场,提供数据仓库建设从硬件、软件到实施的整体方案。
Spark学习技巧
2021/03/05
9770
从数仓到数据中台,谈技术选型最优解
数据中台最后一公里:数据服务管理
数据的价值一个是数据驱动决策,主要通过数据可视化平台、自助BI分析工具提升决策分析效率。另一个是数据在业务端的创新应用,主要是API接口服务的方式,即DAAS(dataAPI as a service
数据干饭人
2022/07/01
8360
数据中台最后一公里:数据服务管理
数据中台建设从数据中台的认知开始
数据中台的概念由来已久,从技术产品构成上来讲,比如数仓、大数据中间件等产品组件相对完备。但是我们认为依然不能把数据中台建设作为一个技术平台的项目来实施。金融机构在数字化转型的进程中建立数据中台,必须从战略的高度、组织的保障及认知的更高层面来做规划。在战略规划的指导下,搭建一套可持续运行的、自服务的、端到端的数据中台建设体系,从而加速金融机构全面数字化转型的进程。
yuanyi928
2020/11/02
1.9K0
数据中台建设从数据中台的认知开始
数据中台产品架构规划必备7件套
2021年还有不到1个月就要说再见了,除了感叹时光匆匆外,马上又要到季度总结、年度总结、年度规划的时候了。最近又集中地把各家公司的数据中台产品架构分析了一遍,试图除了在已有产品的迭代和打磨之余,找到一些新的启发点。看了一圈,发现大同小异。总结下来,数据中台产品最核心的也就是这几件套。
数据干饭人
2022/07/01
2.1K0
数据中台产品架构规划必备7件套
关于中台建设之思考
本篇文章是《从数据仓库到大数据平台再到数据中台》(《关于数据中台建设之思考》)的姊妹篇,之前讲的更多的是关于从数据仓库到大数据平台再到数据中台的演进过程,一直想写一篇关于中台的文章,一来应人之约,但迟迟未动笔,实乃力有不逮;二来是圆自己的一个的总结。
jeanron100
2020/10/10
3620
关于中台建设之思考
什么叫大数据中台系统?大数据中台架构如何提升大数据网站系统管理能力
大部分电商大数据平台系统企业在实践项目的时候,并不会把大部分主力资源将品牌能力沉淀成自身的产品和平台,例如很多可以实现共用的大数据服务没有实现真正意义上的服务化、产品化,以致于很多产品总是在执行重复的动作。我们知道目前的大数据中台系统技术带来的不仅仅是数据量的火箭式增长,更重要的是利于大数据网站系统管理能力提升,所以传统的大数据平台建设已经无法满足用户需求。数据中台系统架构体量、产业规模以及云计算高速发展轻松降低基础设施成本,进一步创造企业盈利是大数据平台所关心的重点问题。通过本文我们来简单了解下:企业为什么要搭建大数据中台系统,什么叫大数据中台架构,数据中台系统架构基本构成和如何提升电商大数据平台功能管理。
数商云
2019/09/25
9440
什么叫大数据中台系统?大数据中台架构如何提升大数据网站系统管理能力
数据中台产品体系简介:一文带你了解数据产品经理都忙什么
毕业入行数据产品时这个岗位并不成熟,很多公司都不设这一岗位,也缺少数据产品经理相关的书籍理论。第一次职业生涯的迷茫期是工作的第三年,毕业前两年一直做数据可视化、数据报表产品经理,从单点的C端埋点、流量统计逐步拓展到管理驾驶舱、销售分析、商品分析、营销分析、画像标签、服务分析等更多业务板块,这个阶段每天忙于和各种业务指标、报表需求,为业务提供数据支撑,乐此不疲,以为数据产品经理的工作就是这些内容了,处于“愚昧山峰”之巅。第三年的时候随着数据可视化平台从0-1的逐步完善,指标覆盖健全,业务新增的需求数量明显降低,很难再挖掘出新的需求,每个版本可提前规划的需求紧急程度看起来似乎都无足轻重了,危机感顿生,担心自己即将失业,不知道还能做些什么,处于绝望之谷。所以在薪资、环境、团队都不错的情况下,选择了离职,想出去看看别人家公司都在做些什么。
数据干饭人
2022/07/01
2K1
数据中台产品体系简介:一文带你了解数据产品经理都忙什么
数据中台建设(二):数据中台简单介绍
2014年马云正式提出“DT(Data Technology)”的概念,人类从IT时代走向DT时代,阿里内部的数据平台事业部大刀阔斧的建立整个集团的数据资产,同年,阿里从芬兰Supercell公司接触到中台概念后,在集团内部积极践行,开创了“大中台、小前台”的组织机制和业务机制,通过高效、统一的后方系统来支撑快速变化的前端业务,提高业务产出效率,减少成本投入。
Lansonli
2022/04/30
9.5K1
数据中台建设(二):数据中台简单介绍
数据库VS数仓VS数据平台VS数据中台,7000字详解数据平台的演进
目前,外界与业内很多人对于数据中台的理解存在误区,一直只是在强调技术的作用。为了统一大家的认知,更加清晰的认识数据中台出现的意义。本文将从数据平台进化演变的角度,对数据中台进行深入的介绍。
大数据分析不是事儿
2020/12/22
1.6K0
数据中台建设(三):数据中台架构介绍
数据中台要求全企业共用一个数据技术平台、共建数据体系、共享数据服务能力。实际上一个企业中由于各个业务线发展不均衡,各自都有独立的数据处理架构,导致共享数据非常困难,所以要构建数据中台不仅是对技术架构的改变,同时还是对整个企业业务运转模式的改变,需要企业在组织架构和资源方面给予支持。数据中台是一个企业战略行动,绝非一个项目组或者一个小团队就能做的,需要了解整个企业的业务情况,对业务进行梳理,还需要技术支撑、组织的支撑,否则很难推行下去。
Lansonli
2022/04/30
3.4K0
15张架构图,详解数据中台建设框架!
《DAMA数据管理知识体系指南》对企业的数据管理成熟度定义了6个层级,分别为:0级-无能力、1级-初始或临时级、2级-可重复级、3级-已定义级、4级-已管理级、5级-优化级,级别越高数据管理越成熟。对于前期缺少数据管理经验的企业,在无数据专家或数据顾问公司支撑的情况下,容易导致以下的问题:
Spark学习技巧
2024/04/12
5K0
15张架构图,详解数据中台建设框架!
宜信数据中台全揭秘(一)数据中台整体介绍|分享实录
传统数仓定制化报表,排期周期长,响应需求慢,重复开发工作比较多。T+1的数据失效也满足不了现在互联网业务场景下对数据实时处理能力的需求。对中台平台自主化开发,可以提升数据加工能力沉淀,以及实时数据处理能力。
宜信技术学院
2020/06/11
9550
【解读数据中台】数据中台之前世今生与多视角解读
有迹可循的大数据思想萌芽,可追溯至1974年,当时有学者在论文中首次提出了“大数据集”的概念,但一直到1991年,Bill Inmon出版了《建立数据仓库》一书,才真正算是在大数据领域有了被广泛接受的“数据仓库”定义。随后,在20世纪初,数据处理量达到TB级的情况下,数据处理、展现应用于业务带来的提升,学界的广泛认同和商界的快速产品化,证明了数据仓库的历史意义与价值。
jeddili
2020/05/15
1.2K0
【解读数据中台】数据中台之前世今生与多视角解读
爱奇艺数据中台建设方案
数据中台更像一种企业架构,是一套结合互联网技术和行业特性,在企业发展的不确定性中,寻找确定性,并且持续沉淀和抽象企业核心能力,最终支持企业快速、高效、低成本进行业务创新和增强的企业架构。
Spark学习技巧
2022/01/12
5890
爱奇艺数据中台建设方案
推荐阅读
相关推荐
读《数据中台-让数据用起来》笔记整理
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档