Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >数据血缘到底是什么?与类似数据概念有什么不同?

数据血缘到底是什么?与类似数据概念有什么不同?

作者头像
博文视点Broadview
发布于 2023-10-19 07:31:02
发布于 2023-10-19 07:31:02
1K1
举报

在数据量不断增长、数据生态系统复杂的时代,追踪数据从源头到目的地,及其经过的各种流程和系统的信息,对确保数据质量、合规性和决策来说至关重要。这些信息被称为数据血缘。

数据血缘既能回答“这些数据从哪里来,到哪里去”这样的哲学问题,也能回答“数据是如何进行加工转换的”这样的技术问题,帮助我们深入了解数据资产的可靠性、可信度。

数据血缘的重要性超出了传统的数据治理和合规性。它在智能数据分析数据集成、数据质量管理和数据驱动决策方面发挥着至关重要的作用。了解数据血缘,能够使组织识别数据异常、解决问题、跟踪数据转换,并确保遵守 GDPR、CCPA 等法规。

数据血缘是企业最重要的数据资产之一,而且未来它将充当更加重要的角色。了解数据血缘的重要性不言而喻!

那么,数据血缘与其类似的概念之间有什么相似性和差异性,它们之间的关系是什么呢?

对不同来源中与数据血缘类似的概念进行分析,得到如下概念清单。

  • 数据价值链。
  • 数据链。
  • 数据流
  • 数据集成架构。
  • 信息价值链。

为了便于记忆,将它们放入图1中。

图1 与数据血缘类似的概念

数据血缘

几种DAMA出版物对数据血缘的定义有所不同。

《DAMA数据管理字典》(DAMA字典)将数据血缘描述为“从数据源到当前位置的路径,以及沿该路径对数据所做的改动”。第一版《DAMA-DMBOK》(DAMA-DMBOK1)将 “数据血缘/流”描述为数据集成架构的交付成果。这与DAMA-DMBOK1中的另一个描述相矛盾:“数据血缘和数据流都是数据集成架构这一概念的名称”。

与DAMA-DMBOK1相比,第二版《DAMA-DMBOK》(DAMA-DMBOK2)进一步阐述了数据血缘的概念。DAMA-DMBOK2提供了一个类似于DAMA字典中的定义。数据血缘是“它(数据)从源点移动到使用点的路径”。

在DAMA-DMBOK2中,术语数据血缘和数据流可互换使用。它将数据流定义为“一种数据血缘文档,它描述了数据如何在业务流程和系统中移动”。

综上,总结如下。

  • 数据血缘描述了数据从源点到目的地的路径,以及数据在路径中进行的转换。
  • 数据血缘、数据流和数据集成架构都是同一个概念。DAMA的出版物将数据血缘、数据流和数据集成架构视为同义词。

下面探讨数据价值链的概念。

数据价值链

数据价值链的定义只出现在DAMA字典中。

根据DAMA字典,“数据价值链是指支持企业业务价值链的跨流程数据流”。

数据价值链分析是指“识别哪些职能、流程、应用程序、组织和角色创建、读取、更新和删除了各类数据(主题域、实体、属性),用CRUD矩阵来表示,特别是当比较的数据内容项按价值链顺序排列时”。

术语“数据价值链”有几个显著的特点。

  • 数据价值链与业务价值链的概念有关。
  • 数据价值链描述了数据流,并将数据流与应用程序和业务组件,如流程、职能和角色等相关联。
  • 数据价值可以在不同层级的数据模型上进行描述,如概念层(主题域)和逻辑层(实体和属性)。

数据链

DAMA-DMBOK2在数据生命周期和数据质量的语境中介绍了这个术语。

DAMA-DMBOK2强调“数据中存在有血缘(例如,从源点移动到使用点的路径,有时称为数据链)”。

由此,我们可以得出一个粗略的结论:数据链是数据血缘的同义词。

数据流

DAMA出版物将数据流视为数据血缘的同义词。下面我们来更深入地了解数据流的定义。

DAMA字典将数据流的概念描述为“系统、应用程序和数据集之间的数据传输”。它还介绍了数据流图的定义,是指“数据在逻辑流程或应用程序服务之间移动或被移动的可视化展示(即,一个流程的输出数据如何作为其他流程的输入数据)。本质上是一个流程模型,是对数据模型的补充”。

DAMA-DMBOK2将数据流设计定义为“用于跨数据库、应用程序、平台和网络(组件)间存储和处理的数据需求和主蓝图。数据流展示了数据在业务流程、位置、业务角色和技术组件间的流动”。

DAMA-DMBOK2将数据流与数据血缘相关联。“数据流是一类数据血缘文档,它描绘了数据如何在业务流程和系统间流动。端到端数据流展示了数据源自哪里、在何处存储和应用,以及数据在系统和流程内部及二者之间流动时如何转换。”

DAMA-DMBOK2定义了数据流的关键组成部分,数据流匹配并记录了以下内容与数据间的关系:

  • 业务流程中的应用程序。
  • 环境中的数据存储库或数据库。
  • 网络段(可用于安全映射)。
  • 业务角色,描述哪些角色负责创建、更新、使用和删除(CRUD)数据。
  • 发生局部差异的位置15。

它还确定了记录数据流的层次。“数据流可以被记录在不同的细节层次上:主题域、业务实体,甚至是属性层次。”16这一观点可以解释为,数据流可以被记录在数据模型的概念层和逻辑层上。

简而言之,总结如下。

  • 数据流和数据血缘是同义词。
  • 通过对业务流程、角色与数据库、应用程序、网络等IT资产建立连接,展示概念层和逻辑层上的数据流。

数据集成架构

不同的DAMA出版物对这个术语给出了不同的定义。

根据DAMA字典,数据集成架构确定了“数据在应用程序和数据库之间如何流动”。

DAMA-DMBOK1给出的数据集成架构的定义更详细。“数据集成架构定义了数据如何从源头到末端流过所有系统。数据集成架构既是数据架构,也是应用架构。

因为它既包括数据库,也包括控制着数据流入、流出系统(数据库之间)的应用程序。数据血缘和数据流都是这个概念的名称。”

在DAMA字典中,你也可以找到对数据集成架构的分类。

数据集成架构可以分为数据库架构、主数据管理架构、数据仓库/商业智能架构和元数据架构。在有些企业中还包括:

  • 受控域值的清单(代码集)。
  • 主题域、实体和代码集的数据专员职责分配表。

同样值得注意的是,The Open Group的TOGAF®9.2中并没有使用数据集成架构的概念。

下面是对数据集成架构的简要总结。

  • 根据DAMA的出版物,数据集成架构、数据流和数据血缘都是相同的概念。
  • 数据集成架构描述了数据库、应用程序、系统、业务角色间的数据流及其职责。

信息价值链

DAMA字典将信息价值链定义为“一个将概念层和逻辑层数据模型与流程模型、应用程序、组织、角色和/或目标连接在一起的过程,以提供信息的语境、相关性和时间框架”。

DAMA-DMBOK1对其进行补充,信息价值链“使数据与业务流程和其他企业架构组件协同一致,包括相关的数据交付架构:数据库架构、数据集成架构、数据仓库/商业智能架构、文档内容架构和元数据架构”。

它还说明了该分析的主要工具:以“实体/职能、实体/组织和实体/角色、实体/应用程序”矩阵的形式,展示“数据、流程、业务、系统和技术之间的关系映射”。

奇怪的是,DAMA-DMBOK2并没有提供关于信息价值链概念的任何定义,书中也没有引用这个术语。

另一个有趣的事实是,虽然在DAMA-DMBOK1中将信息价值链视为数据架构的“主要交付成果”,但在主流的企业架构标准TOGAF®9.2中却找不到这个术语。

以下是关于信息价值链的简要概述。

  • 它将概念层和逻辑层数据模型与(业务)流程、角色和各类企业架构关联起来,企业架构类型包括数据库、系统和应用程序、集成、DWH/BI、元数据等。
  • 信息价值链是数据架构的交付成果之一。
  • 主要工具是将数据实体与业务职能、角色、应用程序等进行匹配的矩阵。

通过分析这些术语,我们可以得出以下结论。

  • 不同的行业参考指南对数据血缘的概念有不同的观点。
  • 没有一致、明确的数据血缘定义。定义会随着时间的推移而变化。
  • 其他几个概念的定义也与数据血缘类似。所有这些概念在不同的抽象层级上描述了数据的流动和转换。
  • 这些概念名称经常互换使用。数据链被认为是数据血缘的同义词。数据流被定义为数据血缘的一种类型。数据血缘、数据流和数据集成架构是同一概念的不同名称。图2所示为这些概念关系的图形表示。这很复杂,不是吗?

图2 不同概念之间的关系概述

  • 数据流动是在数据原点/源/起点到使用点/当前位置/终点/目标间的界限内进行描述。用来描述界限的词汇展示了数据血缘的一个重要特征:其范围或长度的相对性。这意味着记录数据血缘被限制在数据流的相对“起点”和“终点”之间。
  • 数据血缘展示了数据在组织、业务流程和角色等业务组件间的流动。
  • 数据血缘将数据移动与业务组件相匹配,如组织、业务、流程和角色。

所有这些概念形成了与数据血缘类似的概念的组件清单。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-10-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 博文视点Broadview 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
1 条评论
热度
最新
111
111
回复回复点赞举报
推荐阅读
编辑精选文章
换一批
数据中台盛行,DataOps兴起,数据架构才是未来
“在数字化转型的浪潮下,数据架构备受关注。作为企业架构中的关键纽带,数据架构解决了业务与数据的映射,规范了应用架构的数据集成关系,指导了技术架构的技术选型。伴随DataOps等场景的出现,数据架构会逐步走向数据消费端,为企业带来更多的变化和新发现。
数据猿
2020/06/28
7230
数据中台盛行,DataOps兴起,数据架构才是未来
【企业架构】什么是数据架构? 管理数据的框架
根据 The Open Group Architecture Framework (TOGAF),数据架构描述了组织的逻辑和物理数据资产和数据管理资源的结构。它是企业架构的一个分支,包括管理组织中数据的收集、存储、排列、集成和使用的模型、策略、规则和标准。组织的数据架构是数据架构师的职权范围。
架构师研究会
2022/07/29
1.8K1
数据治理专业认证CDMP学习笔记(思维导图与知识点)- 数据管理
本文档基于数据治理相关学习资料整理,为数据治理专业认证CDMP的学习笔记(思维导图与知识点)整理。文章较长,建议收藏后阅读。后续的文档请关注公众号 大数据流动,会持续的更新~
用户6070864
2023/03/24
1.3K1
数据治理专业认证CDMP学习笔记(思维导图与知识点)- 数据管理
DAMA数据管理知识体系指南之数据架构和建模
企业架构包括多种不同类型,如包括业务架构、数据架构、应用架构和技术架构等。其中数据架构的主要目标是有效地管理数据,以及有效地管理存储和使用数据的系统。
王知无-import_bigdata
2023/04/07
1.8K0
DAMA数据管理知识体系指南之数据架构和建模
数据治理专业认证CDMP学习笔记(思维导图与知识点)- 第八章数据集成和互操作篇
本文档为数据集成和互操作思维导图与知识点整理。共分为5个部分,由于页面显示原因,部分层级未能全部展开。结构如下图所示。
用户6070864
2023/03/24
7300
数据治理专业认证CDMP学习笔记(思维导图与知识点)- 第八章数据集成和互操作篇
DataOps:数据中台的必备底座
数据中台的崛起代表了企业数字化转型从流程驱动走向数据驱动,从数字化走向智能化。而DataOps则是数据中台区别于传统企业数据架构的核心差异,是建设数据中台的必备底座能力。
凯哥
2020/07/09
7.3K0
DataOps:数据中台的必备底座
《DAMA-DMBOK2》读书笔记-第11章 数据仓库和商务智能
商务智能这个术语有两层含义。 <font color = green>P292</font>
辉哥
2022/09/08
1.1K0
《DAMA-DMBOK2》读书笔记-第11章 数据仓库和商务智能
数据治理是什么?该如何入门呢?
大家好,我是独孤风,一位曾经的港口煤炭工人,目前在某国企任大数据负责人,公众号大数据流动主理人。
大数据流动
2023/07/21
6340
数据治理是什么?该如何入门呢?
DAMA数据管理知识体系指南之数据管理和数据治理
简介:DAMA:国际数据管理协会,是一个全球性数据管理和业务专业志愿人士组成的非营利协会,是当前国际上在数据治理领域最权威的机构。DMBOK2则是DAMA组织众多数据管理领域的国际级资深专家编著,深入阐述数据管理各领域的完整知识体系。它是市场上唯一综合了数据管理方方面面的一部权威性著作。本篇文章,将针对DMBOK中的核心内容进行解读。
王知无-import_bigdata
2023/04/07
3.3K0
DAMA数据管理知识体系指南之数据管理和数据治理
一、大数据技术
本文为第一课(开篇)。在后续我也将按照自己积累的经验和学习群大家的讨论内容对后续的内容进行不断的整理。也感谢所有学习群群友的帮助,路漫漫,在数据治理的道路上让我们一起并肩前行。
大数据流动
2022/09/16
4470
一、大数据技术
数据治理专业认证CDMP学习笔记(思维导数据治理专业认证CDMP学习笔记(思维导图与知识点)- 第11章数据仓库和商务智能篇
数据仓库(Data Warehouse,DW):始于 20 世纪 80 年代,发展于 20 世纪 90 年代,后与商务智能(Business Inteligence,BI)作为业务决策主要驱动力协同发展。赋能组织将不同来源的数据整合到公共的数据模型,整合后的数据能为业务运营提供洞察,为企业决策支持和创造组织价值开辟新的可能性。
用户6070864
2023/03/24
9190
数据治理专业认证CDMP学习笔记(思维导数据治理专业认证CDMP学习笔记(思维导图与知识点)- 第11章数据仓库和商务智能篇
浅谈数据治理、数据管理、数据资源与数据资产管理内涵及差异点(建议收藏)
随着信息技术的不断涌现和普及,业务发展加快了数据膨胀的速度,行业内衍生了较多的新名词,如数据治理、数据管理、数据资源管理、数据资产管理等名词的定义很多,概念容易混淆,本文对这些名词术语及内涵进行系统的解析,便于读者对数据相关的概念有全面的认识。
木东居士
2019/09/24
6K0
浅谈数据治理、数据管理、数据资源与数据资产管理内涵及差异点(建议收藏)
数据资源常识(3.1)数据管理(Data Management)
三、行业数据资源概念(Industry Data Resources Concept)
秦陇纪
2020/04/21
1.9K0
数据资源常识(3.1)数据管理(Data Management)
关于DAMA参考数据和主数据管理的解读和一些看法
参考数据管理是对定义的数据值域进行控制,包括对标准化术语、代码值和其他唯一标识符以及每个取值的业务定义的控制,和对数据域值列表内部和跨不同列表之间的业务关系的控制;并且对准确、及时和相关参考数据值的一致,共享使用进行控制,以进行数据分类和目录整编。
python与大数据分析
2022/03/11
9670
关于DAMA参考数据和主数据管理的解读和一些看法
浅谈数据管理的DNA — 元数据
企业架构理论体系中,数据架构始终是企业架构的核心组成部分。TOGAF企业架构框架定义了数据架构位于业务架构与基础技术架构之间,通过数据架构的治理实现的业务和应用的有效衔接。
数据社
2021/07/30
9250
数据治理专业认证CDMP学习笔记(思维导图与知识点)- 第四章数据架构篇
本文档为数据架构部分笔记,思维导图与知识点整理。共分为6个部分,由于页面显示原因,部分层级未能全部展开。结构如下图所示。
用户6070864
2023/03/24
4890
数据治理专业认证CDMP学习笔记(思维导图与知识点)- 第四章数据架构篇
我们需要什么样的数据架构?
在大数据和数据科学的新时代,对企业而言,一定要有与业务流程保持一致的中心化数据架构,该架构能随业务增长而扩展,并随技术进步而发展。
AI科技大本营
2020/02/25
6770
刘晨:大数据怎能没有你--数据治理
主讲嘉宾:刘晨 主持人:中关村大数据产业联盟 副秘书长 陈新河 承办:中关村大数据产业联盟 嘉宾介绍: 刘晨:广州利为软件合伙人,从事数据治理软件产品研发与咨询服务。清华大学电子系本科、经管学院MBA。拥有数据治理领域六年以上从业经验。国际数据管理协会中国分会(DAMA China)核心工作组成员,国际信息和数据质量协会(IAIDQ)会员。译著有《DAMA数据管理知识体系指南》,编写《大型企业信息化工程项目管理实战》数据管理章节。 以下为分享实景全文: 主题汇报人: 刘晨:大家好,我是刘晨,来自于利为软件
大数据文摘
2018/05/21
15.3K0
关于数据建模之思考(二)
前文讲了数据架构、数据建模、主题域、概念模型和逻辑模型,到底数据仓库(含数据中台和大数据平台)中应该如何建模呢?
python与大数据分析
2022/03/11
4870
关于数据建模之思考(二)
3分钟让你分清,数据管理与数据治理的区别
 数据管理和数据治理有很多地方是互相重叠的,它们都围绕数据这个领域展开,因此这两个术语经常被混为一谈。   此外,每当人们提起数据管理和数据治理的时候,还有一对类似的术语叫信息管理和信息治理,更混淆了人们对它们的理解。关于企业信息管理这个课题,还有许多相关的子集,包括主数据管理、元数据管理、数据生命周期管理等等。   于是,出现了许多不同的理论(或理论家)描述关于在企业中数据/信息的管理以及治理如何运作:它们如何单独运作?它们又如何一起协同工作?是“自下而上”还是“自上而下”的方法更高效?   为了帮
BestSDK
2018/02/28
1.7K0
推荐阅读
相关推荐
数据中台盛行,DataOps兴起,数据架构才是未来
更多 >
领券
💥开发者 MCP广场重磅上线!
精选全网热门MCP server,让你的AI更好用 🚀
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档