在数据量不断增长、数据生态系统复杂的时代,追踪数据从源头到目的地,及其经过的各种流程和系统的信息,对确保数据质量、合规性和决策来说至关重要。这些信息被称为数据血缘。
数据血缘既能回答“这些数据从哪里来,到哪里去”这样的哲学问题,也能回答“数据是如何进行加工转换的”这样的技术问题,帮助我们深入了解数据资产的可靠性、可信度。
数据血缘的重要性超出了传统的数据治理和合规性。它在智能数据分析、数据集成、数据质量管理和数据驱动决策方面发挥着至关重要的作用。了解数据血缘,能够使组织识别数据异常、解决问题、跟踪数据转换,并确保遵守 GDPR、CCPA 等法规。
数据血缘是企业最重要的数据资产之一,而且未来它将充当更加重要的角色。了解数据血缘的重要性不言而喻!
那么,数据血缘与其类似的概念之间有什么相似性和差异性,它们之间的关系是什么呢?
对不同来源中与数据血缘类似的概念进行分析,得到如下概念清单。
为了便于记忆,将它们放入图1中。
图1 与数据血缘类似的概念
▊ 数据血缘
几种DAMA出版物对数据血缘的定义有所不同。
《DAMA数据管理字典》(DAMA字典)将数据血缘描述为“从数据源到当前位置的路径,以及沿该路径对数据所做的改动”。第一版《DAMA-DMBOK》(DAMA-DMBOK1)将 “数据血缘/流”描述为数据集成架构的交付成果。这与DAMA-DMBOK1中的另一个描述相矛盾:“数据血缘和数据流都是数据集成架构这一概念的名称”。
与DAMA-DMBOK1相比,第二版《DAMA-DMBOK》(DAMA-DMBOK2)进一步阐述了数据血缘的概念。DAMA-DMBOK2提供了一个类似于DAMA字典中的定义。数据血缘是“它(数据)从源点移动到使用点的路径”。
在DAMA-DMBOK2中,术语数据血缘和数据流可互换使用。它将数据流定义为“一种数据血缘文档,它描述了数据如何在业务流程和系统中移动”。
综上,总结如下。
下面探讨数据价值链的概念。
▊ 数据价值链
数据价值链的定义只出现在DAMA字典中。
根据DAMA字典,“数据价值链是指支持企业业务价值链的跨流程数据流”。
数据价值链分析是指“识别哪些职能、流程、应用程序、组织和角色创建、读取、更新和删除了各类数据(主题域、实体、属性),用CRUD矩阵来表示,特别是当比较的数据内容项按价值链顺序排列时”。
术语“数据价值链”有几个显著的特点。
▊ 数据链
DAMA-DMBOK2在数据生命周期和数据质量的语境中介绍了这个术语。
DAMA-DMBOK2强调“数据中存在有血缘(例如,从源点移动到使用点的路径,有时称为数据链)”。
由此,我们可以得出一个粗略的结论:数据链是数据血缘的同义词。
▊ 数据流
DAMA出版物将数据流视为数据血缘的同义词。下面我们来更深入地了解数据流的定义。
DAMA字典将数据流的概念描述为“系统、应用程序和数据集之间的数据传输”。它还介绍了数据流图的定义,是指“数据在逻辑流程或应用程序服务之间移动或被移动的可视化展示(即,一个流程的输出数据如何作为其他流程的输入数据)。本质上是一个流程模型,是对数据模型的补充”。
DAMA-DMBOK2将数据流设计定义为“用于跨数据库、应用程序、平台和网络(组件)间存储和处理的数据需求和主蓝图。数据流展示了数据在业务流程、位置、业务角色和技术组件间的流动”。
DAMA-DMBOK2将数据流与数据血缘相关联。“数据流是一类数据血缘文档,它描绘了数据如何在业务流程和系统间流动。端到端数据流展示了数据源自哪里、在何处存储和应用,以及数据在系统和流程内部及二者之间流动时如何转换。”
DAMA-DMBOK2定义了数据流的关键组成部分,数据流匹配并记录了以下内容与数据间的关系:
它还确定了记录数据流的层次。“数据流可以被记录在不同的细节层次上:主题域、业务实体,甚至是属性层次。”16这一观点可以解释为,数据流可以被记录在数据模型的概念层和逻辑层上。
简而言之,总结如下。
▊ 数据集成架构
不同的DAMA出版物对这个术语给出了不同的定义。
根据DAMA字典,数据集成架构确定了“数据在应用程序和数据库之间如何流动”。
DAMA-DMBOK1给出的数据集成架构的定义更详细。“数据集成架构定义了数据如何从源头到末端流过所有系统。数据集成架构既是数据架构,也是应用架构。
因为它既包括数据库,也包括控制着数据流入、流出系统(数据库之间)的应用程序。数据血缘和数据流都是这个概念的名称。”
在DAMA字典中,你也可以找到对数据集成架构的分类。
数据集成架构可以分为数据库架构、主数据管理架构、数据仓库/商业智能架构和元数据架构。在有些企业中还包括:
同样值得注意的是,The Open Group的TOGAF®9.2中并没有使用数据集成架构的概念。
下面是对数据集成架构的简要总结。
▊ 信息价值链
DAMA字典将信息价值链定义为“一个将概念层和逻辑层数据模型与流程模型、应用程序、组织、角色和/或目标连接在一起的过程,以提供信息的语境、相关性和时间框架”。
DAMA-DMBOK1对其进行补充,信息价值链“使数据与业务流程和其他企业架构组件协同一致,包括相关的数据交付架构:数据库架构、数据集成架构、数据仓库/商业智能架构、文档内容架构和元数据架构”。
它还说明了该分析的主要工具:以“实体/职能、实体/组织和实体/角色、实体/应用程序”矩阵的形式,展示“数据、流程、业务、系统和技术之间的关系映射”。
奇怪的是,DAMA-DMBOK2并没有提供关于信息价值链概念的任何定义,书中也没有引用这个术语。
另一个有趣的事实是,虽然在DAMA-DMBOK1中将信息价值链视为数据架构的“主要交付成果”,但在主流的企业架构标准TOGAF®9.2中却找不到这个术语。
以下是关于信息价值链的简要概述。
通过分析这些术语,我们可以得出以下结论。
图2 不同概念之间的关系概述
所有这些概念形成了与数据血缘类似的概念的组件清单。
本文分享自 博文视点Broadview 微信公众号,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体同步曝光计划 ,欢迎热爱写作的你一起参与!