前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >数据血缘到底是什么?与类似数据概念有什么不同?

数据血缘到底是什么?与类似数据概念有什么不同?

作者头像
博文视点Broadview
发布2023-10-19 15:31:02
6841
发布2023-10-19 15:31:02
举报

在数据量不断增长、数据生态系统复杂的时代,追踪数据从源头到目的地,及其经过的各种流程和系统的信息,对确保数据质量、合规性和决策来说至关重要。这些信息被称为数据血缘。

数据血缘既能回答“这些数据从哪里来,到哪里去”这样的哲学问题,也能回答“数据是如何进行加工转换的”这样的技术问题,帮助我们深入了解数据资产的可靠性、可信度。

数据血缘的重要性超出了传统的数据治理和合规性。它在智能数据分析、数据集成、数据质量管理和数据驱动决策方面发挥着至关重要的作用。了解数据血缘,能够使组织识别数据异常、解决问题、跟踪数据转换,并确保遵守 GDPR、CCPA 等法规。

数据血缘是企业最重要的数据资产之一,而且未来它将充当更加重要的角色。了解数据血缘的重要性不言而喻!

那么,数据血缘与其类似的概念之间有什么相似性和差异性,它们之间的关系是什么呢?

对不同来源中与数据血缘类似的概念进行分析,得到如下概念清单。

  • 数据价值链。
  • 数据链。
  • 数据流。
  • 数据集成架构。
  • 信息价值链。

为了便于记忆,将它们放入图1中。

图1 与数据血缘类似的概念

数据血缘

几种DAMA出版物对数据血缘的定义有所不同。

《DAMA数据管理字典》(DAMA字典)将数据血缘描述为“从数据源到当前位置的路径,以及沿该路径对数据所做的改动”。第一版《DAMA-DMBOK》(DAMA-DMBOK1)将 “数据血缘/流”描述为数据集成架构的交付成果。这与DAMA-DMBOK1中的另一个描述相矛盾:“数据血缘和数据流都是数据集成架构这一概念的名称”。

与DAMA-DMBOK1相比,第二版《DAMA-DMBOK》(DAMA-DMBOK2)进一步阐述了数据血缘的概念。DAMA-DMBOK2提供了一个类似于DAMA字典中的定义。数据血缘是“它(数据)从源点移动到使用点的路径”。

在DAMA-DMBOK2中,术语数据血缘和数据流可互换使用。它将数据流定义为“一种数据血缘文档,它描述了数据如何在业务流程和系统中移动”。

综上,总结如下。

  • 数据血缘描述了数据从源点到目的地的路径,以及数据在路径中进行的转换。
  • 数据血缘、数据流和数据集成架构都是同一个概念。DAMA的出版物将数据血缘、数据流和数据集成架构视为同义词。

下面探讨数据价值链的概念。

数据价值链

数据价值链的定义只出现在DAMA字典中。

根据DAMA字典,“数据价值链是指支持企业业务价值链的跨流程数据流”。

数据价值链分析是指“识别哪些职能、流程、应用程序、组织和角色创建、读取、更新和删除了各类数据(主题域、实体、属性),用CRUD矩阵来表示,特别是当比较的数据内容项按价值链顺序排列时”。

术语“数据价值链”有几个显著的特点。

  • 数据价值链与业务价值链的概念有关。
  • 数据价值链描述了数据流,并将数据流与应用程序和业务组件,如流程、职能和角色等相关联。
  • 数据价值可以在不同层级的数据模型上进行描述,如概念层(主题域)和逻辑层(实体和属性)。

数据链

DAMA-DMBOK2在数据生命周期和数据质量的语境中介绍了这个术语。

DAMA-DMBOK2强调“数据中存在有血缘(例如,从源点移动到使用点的路径,有时称为数据链)”。

由此,我们可以得出一个粗略的结论:数据链是数据血缘的同义词。

数据流

DAMA出版物将数据流视为数据血缘的同义词。下面我们来更深入地了解数据流的定义。

DAMA字典将数据流的概念描述为“系统、应用程序和数据集之间的数据传输”。它还介绍了数据流图的定义,是指“数据在逻辑流程或应用程序服务之间移动或被移动的可视化展示(即,一个流程的输出数据如何作为其他流程的输入数据)。本质上是一个流程模型,是对数据模型的补充”。

DAMA-DMBOK2将数据流设计定义为“用于跨数据库、应用程序、平台和网络(组件)间存储和处理的数据需求和主蓝图。数据流展示了数据在业务流程、位置、业务角色和技术组件间的流动”。

DAMA-DMBOK2将数据流与数据血缘相关联。“数据流是一类数据血缘文档,它描绘了数据如何在业务流程和系统间流动。端到端数据流展示了数据源自哪里、在何处存储和应用,以及数据在系统和流程内部及二者之间流动时如何转换。”

DAMA-DMBOK2定义了数据流的关键组成部分,数据流匹配并记录了以下内容与数据间的关系:

  • 业务流程中的应用程序。
  • 环境中的数据存储库或数据库。
  • 网络段(可用于安全映射)。
  • 业务角色,描述哪些角色负责创建、更新、使用和删除(CRUD)数据。
  • 发生局部差异的位置15。

它还确定了记录数据流的层次。“数据流可以被记录在不同的细节层次上:主题域、业务实体,甚至是属性层次。”16这一观点可以解释为,数据流可以被记录在数据模型的概念层和逻辑层上。

简而言之,总结如下。

  • 数据流和数据血缘是同义词。
  • 通过对业务流程、角色与数据库、应用程序、网络等IT资产建立连接,展示概念层和逻辑层上的数据流。

数据集成架构

不同的DAMA出版物对这个术语给出了不同的定义。

根据DAMA字典,数据集成架构确定了“数据在应用程序和数据库之间如何流动”。

DAMA-DMBOK1给出的数据集成架构的定义更详细。“数据集成架构定义了数据如何从源头到末端流过所有系统。数据集成架构既是数据架构,也是应用架构。

因为它既包括数据库,也包括控制着数据流入、流出系统(数据库之间)的应用程序。数据血缘和数据流都是这个概念的名称。”

在DAMA字典中,你也可以找到对数据集成架构的分类。

数据集成架构可以分为数据库架构、主数据管理架构、数据仓库/商业智能架构和元数据架构。在有些企业中还包括:

  • 受控域值的清单(代码集)。
  • 主题域、实体和代码集的数据专员职责分配表。

同样值得注意的是,The Open Group的TOGAF®9.2中并没有使用数据集成架构的概念。

下面是对数据集成架构的简要总结。

  • 根据DAMA的出版物,数据集成架构、数据流和数据血缘都是相同的概念。
  • 数据集成架构描述了数据库、应用程序、系统、业务角色间的数据流及其职责。

信息价值链

DAMA字典将信息价值链定义为“一个将概念层和逻辑层数据模型与流程模型、应用程序、组织、角色和/或目标连接在一起的过程,以提供信息的语境、相关性和时间框架”。

DAMA-DMBOK1对其进行补充,信息价值链“使数据与业务流程和其他企业架构组件协同一致,包括相关的数据交付架构:数据库架构、数据集成架构、数据仓库/商业智能架构、文档内容架构和元数据架构”。

它还说明了该分析的主要工具:以“实体/职能、实体/组织和实体/角色、实体/应用程序”矩阵的形式,展示“数据、流程、业务、系统和技术之间的关系映射”。

奇怪的是,DAMA-DMBOK2并没有提供关于信息价值链概念的任何定义,书中也没有引用这个术语。

另一个有趣的事实是,虽然在DAMA-DMBOK1中将信息价值链视为数据架构的“主要交付成果”,但在主流的企业架构标准TOGAF®9.2中却找不到这个术语。

以下是关于信息价值链的简要概述。

  • 它将概念层和逻辑层数据模型与(业务)流程、角色和各类企业架构关联起来,企业架构类型包括数据库、系统和应用程序、集成、DWH/BI、元数据等。
  • 信息价值链是数据架构的交付成果之一。
  • 主要工具是将数据实体与业务职能、角色、应用程序等进行匹配的矩阵。

通过分析这些术语,我们可以得出以下结论。

  • 不同的行业参考指南对数据血缘的概念有不同的观点。
  • 没有一致、明确的数据血缘定义。定义会随着时间的推移而变化。
  • 其他几个概念的定义也与数据血缘类似。所有这些概念在不同的抽象层级上描述了数据的流动和转换。
  • 这些概念名称经常互换使用。数据链被认为是数据血缘的同义词。数据流被定义为数据血缘的一种类型。数据血缘、数据流和数据集成架构是同一概念的不同名称。图2所示为这些概念关系的图形表示。这很复杂,不是吗?

图2 不同概念之间的关系概述

  • 数据流动是在数据原点/源/起点到使用点/当前位置/终点/目标间的界限内进行描述。用来描述界限的词汇展示了数据血缘的一个重要特征:其范围或长度的相对性。这意味着记录数据血缘被限制在数据流的相对“起点”和“终点”之间。
  • 数据血缘展示了数据在组织、业务流程和角色等业务组件间的流动。
  • 数据血缘将数据移动与业务组件相匹配,如组织、业务、流程和角色。

所有这些概念形成了与数据血缘类似的概念的组件清单。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-10-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 博文视点Broadview 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据集成
数据集成(DataInLong)源于腾讯开源并孵化成功的 ASF 顶级项目 Apache InLong(应龙),依托 InLong 百万亿级别的数据接入和处理能力支持数据采集、汇聚、存储、分拣数据处理全流程,在跨云跨网环境下提供可靠、安全、敏捷的全场景异构数据源集成能力。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档