首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

数据血缘系列(6)—— 数据血缘与主数据

在当今数据驱动的商业环境中,数据治理成为企业成功的关键因素之一,而数据血缘正是数据治理成功的一个关键。 本文我们详细探讨下数据血缘与主数据有什么关系?他们之间又是如何配合实现数据治理的。...主数据数据血缘 数据血缘是指数据在不同系统和过程中的流转和变更历史。了解主数据数据血缘对于确保数据的质量和一致性具有重要意义。数据血缘的特征包括来源追溯、变更历史、影响分析和透明性与可追溯性。...通过数据血缘,可以识别和修正主数据中的错误和不一致,提高数据质量。数据血缘为主数据的治理提供了基础,帮助制定和执行数据治理政策。...合规性和审计方面,数据血缘记录了主数据的变更历史,有助于合规审计,确保数据管理符合相关法规和标准。在业务决策支持方面,了解主数据血缘关系,有助于进行准确的业务分析和决策,提高业务运营效率。...下一章我们继续来了解数据血缘与业务数据之间的联系。 我们下一章再见!

22710

数据血缘系列(10)—— 数据血缘3种实体之数据血缘数据血缘数据字段血缘

它主要涉及数据血缘数据血缘数据字段血缘三种实体。本文将深入探讨这三种实体的定义及其在数据治理中的作用,并结合具体实践原则进行阐述。...将数据血缘分为数据血缘数据血缘数据字段血缘三类,可以提供不同层次的精细化管理:数据血缘帮助理解数据在全局系统间的流动路径,确保数据传输的透明性;数据血缘关注数据在表级别的传输过程,确保表与表之间的数据准确性和一致性...这三者共同作用,全面保障数据从源头到终端的完整性和可靠性。 数据血缘数据血缘数据字段血缘三者在数据血缘分析中各司其职,共同保障了数据的透明性、准确性和合规性。...数据血缘提供宏观的全局视角,数据血缘确保数据在表级别上的正确传输,而数据字段血缘则深入细节,保障数据在字段级别上的一致性和准确性。...这样,数据血缘三个实体,数据血缘数据血缘、字段血缘已经了解了,下一章我们继续了解数据血缘的几种类型:逻辑血缘、物理血缘、时间血缘、操作血缘、业务血缘。 我们下一章再见!

32610
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    数据血缘“入门

    什么是数据血缘数据的产生、加工融合、流转流通,到最终消亡,数据之间自然会形成一种关系。借鉴人类社会中类似的一种关系来表达数据之间的这种关系,称之为数据血缘关系。数据血缘是元数据的组成部分之一。...它分析表和字段从数据源到当前表的血缘路径,以及血缘字段之间存在的关系是否满足,关注的数据一致性以及表设计的合理性。...可追溯性 数据血缘关系,体现了数据的生命周期,体现了数据从产生到消亡的整个过程,具备可追溯性。 层次性 数据血缘关系是有层次的。...数据血缘分析 即数据“前向”血缘。通过指定表/字段,来追溯其前向多级对象。 数据影响分析 即数据“后向”血缘。通过指定表/字段,来关联其后向多级对象。...数据全局血缘 不局限于单个对象,可从更大尺度(例如:项目内等),了解整体数据流转情况。这对于分析热点对象、数据清理等需求都很有意义。 数据计算血缘 即从“作业”角度入手,分析其前向、后向作业情况。

    10.8K51

    数据血缘系列(5)—— 数据血缘与元数据

    在当今数据驱动的商业环境中,数据治理成为企业成功的关键因素之一,而数据血缘正是数据治理成功的一个关键。 本文我们详细探讨下数据血缘与元数据有什么关系?他们之间又是如何配合实现数据治理的。...本文为《数据血缘分析原理与实践 》一书读书笔记,部分观点参考自书中原文,如需更详细的了解学习,请大家支持原作者的辛苦付出。...元数据数据血缘的联系 数据血缘(Data Lineage)是指数据从其来源到最终目的地的生命周期中所有变更的跟踪和记录。数据血缘包括数据的来源、流向、变换规则和依赖关系等。...在数据治理中,元数据数据血缘紧密相关。元数据记录了数据的来源和目标,使数据血缘分析能够准确地追踪数据的流动路径。...通过元数据数据血缘的结合,企业可以更好地理解和管理其数据资产,提升数据的价值和利用水平。元数据数据血缘数据治理中具有不可替代的重要作用。

    32410

    数据管理与数据血缘

    比如数据表格的Schema信息,任务的血缘关系,用户和脚本/任务的权限映射关系信息等等。...数据血缘关系信息 血缘信息或者叫做Lineage的血统信息是什么,简单的说就是数据之间的上下游来源去向关系,数据从哪里来到哪里去。知道这个信息有什么用呢?...以hive表为例,通过分析hive脚本的执行计划,是可以做到相对精确的定位出字段级别的数据血缘关系的。...最后,关于数据血缘关系跟踪,再多说两句。...,不能提前获取血缘信息 临时脚本或者错误的脚本逻辑对血缘关系数据的污染 简单总结一下,就是基于运行时的信息来采集血缘关系,由于缺乏静态的业务信息辅助,如何甄别和更新血缘关系的生命周期和有效性会是一个棘手的问题

    57610

    统一元数据数据血缘

    背景介绍 数据血缘(Data Lineage):是数据治理中元数据管理领域下的一个子范畴,是数据的溯源过程,获得数据产生链路,发现数据的关联关系,目的是解决"数据的哲学三问":我是谁,我从哪里来,我到哪里去...常见的数据血缘主要包括两大类: SQL血缘:基于SQL解析AST语法树,获取SQL的表、字段血缘; 业务血缘:常为基于任务调度DAG生成的数据流向关系; 业界方案 业界实现方案,开源项目数据血缘对比 项目...血缘解析应用流程如下: 生产数据:上层数据地图、数据开发等功能在SQL和任务过程中,主动push给元数据应用层,元数据应用层基于固定消息格式将对应的数据生产到消息中间件; 消费数据血缘服务定时从消息中间件消费数据进行处理...血缘服务可分为三个模块:血缘解析、血缘存储、血缘查询。 总结 数据血缘数据治理的重要应用之一,通过血缘信息可清晰识别出表之间的依赖关系,追踪数据的来源和流向过程。...数据血缘对于数据质量管理、合规性以及数据安全都有重要的作用。在复杂的数据环境中,维护准确的数据血缘信息是一个挑战性问题。

    2K95

    前瞻|Amundsen的数据血缘功能

    目前,Amundsen并不支持表级别和列级别的数据血缘功能,也没有办法展示数据的来龙去脉。 作为Amundsen一项非常核心的功能,Lineage功能早已经提上日程,并进入设计与研发阶段。...新的概念 Lineage:这是一个术语,代表了数据流的传递过程,从一个实体到另一个实体。特别是ETL的过程,重点关注表到表,列到列的数据流转过程。...Upstream:数据从上游流向下游,Upstream就代表着当前的数据来源。 Downstream:代表了使用了当前数据的相关实体。...每个选项卡将包含从中继承或使用数据的表的列表。这允许用户以非常简单的方式查看。 image.png 列级别 和表级别相似,可通过扩展列的元数据来查看。

    1.6K20

    聊聊Hive数据血缘——从Atlas没有列级血缘的Bug讲起

    前几天,Datahub提供了最新的字段级别数据血缘功能,很多朋友迫不及待想对比一下Datahub的字段级血缘与Atlas的区别。...这个时候问题来了,在Atlas收集Hive血缘的时候,由于部分版本问题,没有显示出字段级的数据血缘。这是为什么呢?其实只要做一个简单的修复就可以了,但是知其然也要知其所以然。...正文开始: 通过本文档,可以快速的解决Hive在Altas字段级血缘没有生成的问题,并了解Hive数据血缘实现原理。更多元数据管理,数据血缘相关文章,可以关注后续的文章更新。...但是,很多同学在按该步骤操作完以后,字段级数据血缘并未生成。这是为什么呢?...四、Hive表数据血缘实现 表的实现就比较简单了。

    1.8K10

    数据管理实践&数据血缘

    比如数据表格的Schema信息,任务的血缘关系,用户和脚本/任务的权限映射关系信息等等。...数据血缘关系信息 血缘信息或者叫做Lineage的血统信息是什么,简单的说就是数据之间的上下游来源去向关系,数据从哪里来到哪里去。知道这个信息有什么用呢?...以hive表为例,通过分析hive脚本的执行计划,是可以做到相对精确的定位出字段级别的数据血缘关系的。...最后,关于数据血缘关系跟踪,再多说两句。...,不能提前获取血缘信息 临时脚本或者错误的脚本逻辑对血缘关系数据的污染 简单总结一下,就是基于运行时的信息来采集血缘关系,由于缺乏静态的业务信息辅助,如何甄别和更新血缘关系的生命周期和有效性会是一个棘手的问题

    2K40

    基于Spline的数据血缘解析

    一、前言 什么是数据血缘数据血缘数据产生、加工、转化,数据之间产生的关系。随着公司业务发展,通过数据血缘,能知道数据的流向,以便我们更好地进行数据治理。 二、为什么选择 Spline?...政采云大数据平台的作业目前主要有 Spark SQL、PySpark、Spark JAR、数据交换、脚本类型等,最初由于实现难度的问题,考虑解析 SparkPlan( Spark 物理计划)以获取表、字段血缘...Kafka,应用可消费 Kafka 数据获取字段血缘数据进行解析,但政采云大数据平台,基于业务需要,字段血缘需要跟作业绑定,若通过消费 Kafka 的方式,无法在获取字段血缘数据的同时跟作业绑定。...附,Spline REST 文档 1、血缘解析流程 Htools:政采云大数据平台的一个调度工具 IData:政采云大数据平台应用层 2、基于接口解析血缘 解析字段血缘,主要涉及到 Consumer...4、调优 表、字段血缘跟作业绑定,故,若作业无变化的情况,表、字段的血缘是不会变化的,在作业调度完后,调用解析血缘的接口时,我们结合当前作业版本和前一次血缘记录中的作业版本进行比对,若作业版本不一致的情况才更新血缘

    87820

    python实现之数据血缘关系,by networkx

    最近在进行数据逆向分析,无业务无界面无数据库的情况下,想通过对存储过程中关于输出输入表的分析快速了解业务的核心问题,然后再对核心业务进行逆向回溯。...其实问题很简单,一个存储过程会有多个输入表和输出表,一个存储过程的输出表可能会成为另外一个存储过程的输入表,从而将整个数据库的业务逻辑串接起来,基于长链会形成血缘关系,基于关联会形成聚合。...这里需要构造的节点数据和连接数据,节点数据是输入表和输出表剔重后的编号和标签,连接数据通过存储过程标签将节点数据进行关联。 代码之前有测试过,所以这次实现无太多需要讲解。 #!

    1.8K21

    干货 | 携程数据血缘构建及应用

    数据的产生,通过加工融合流转产生新的数据,到最终消亡,数据之间的关联关系可以称之为数据血缘关系。...数据血缘用途: 追踪数据溯源:当数据发生异常,帮助追踪到异常发生的原因;影响面分析,追踪数据的来源,追踪数据处理过程。...、数据血缘、安全和生命周期管理在内的元数据治理核心能力。...它从不同的源系统中采集元数据,并进行标准化和建模,从而作为元数据仓库完成血缘分析。...随着业务需求和数据的增长,数据的加工流程越来越复杂,构建一套数据血缘,可以轻松查询到数据之间的关系,进行表和字段级的血缘追溯,在元数据管理,数据治理,数据质量上承担重要一环。

    4.9K20

    Yelp 的 Spark 数据血缘建设实践!

    它提供数据旅程的可视化表示,包括从起点到目的地的所有步骤,并提供有关数据去向、谁拥有数据以及在每个步骤中如何处理和存储数据的详细信息。...Spark-Lineage 从每个 Spark-ETL 作业中提取所有必要的元数据,构建数据移动的图形表示,并让用户通过第三方数据治理平台以交互方式探索它们。 图 1....了解机器学习功能 研究机器学习模型的数据科学家经常在构建新功能时寻找现有数据。在某些情况下,他们发现的数据可能基于关于应包含哪些数据的不同假设。...服务端实现 数据标识符 Spark-Lineage 需要跟踪的最基本的元数据数据的标识符。我们提供了 2 种方法来识别输入/输出表:schema_id和数据的位置。...并负责数据的技术文档和数据问题的故障排除。

    1.4K20

    马哈鱼带你发现SQL中的数据血缘

    一、马哈鱼数据血缘分析器( SQLFlow )是什么 ---- 在大型数据仓库和数据湖中,完整的数据血缘关系可以用来进行数据溯源、表和字段变更的影响分析、数据合规性的证明、数据质量的检查等。...那么到底什么是数据血缘关系 (data lineage) 呢? 维基百科上的定义是:数据从哪里来,往哪里去,中间发生了哪些变化。 马哈鱼数据血缘分析器通过分析 SQL 脚本,给出完整的数据血缘关系。...四、产品版本 1.马哈鱼数据血缘分析器 马哈鱼数据血缘分析器是一个 SaaS 服务。通过浏览器直接使用,无需安装任何软件。 通过浏览器访问马哈鱼数据血缘分析器。 在浏览器中上传SQL文本或文件。...六、马哈鱼数据血缘分析器的局限 马哈鱼数据血缘分析器仅仅通过分析 SQL 脚本,包含存储过程(proceudre, function, trigger)来获取数据库中 的数据血缘关系。...但在 ETL 数据转换过程中,会用到很多其它技术和工具,由此产生的数据血缘关系目前 马哈鱼数据血缘分析器无法探知。

    2.8K20

    数据血缘分析-Python代码的智能解析

    如果你的工作是从事数据挖掘、数据仓库建设或者信息系统开发/维护,有没有曾经遇到过如下的烦恼?...从而帮助开发人员更好地认识和理解业务系统业务与底层表关系、底层表的表间关系,理清当前数据(字段、关键指标或者数据标签)从哪里来、到哪里去,搞清楚哪些下游系统在使用这些数据。...血缘分析是解决这类问题的一种技术手段。数据血缘(Data Lineage),指的是数据从产生、ETL处理、加工、融合、流转到最终消亡,数据之间自然形成一种关系。这些关系就是描述数据数据(元数据)。...掌握了这个元数据,就能最大程度的做好数据的应用和管理。 那么如何推导数据之间的血缘关系呢?其实在开发或者分析师团队提供的成百上千的数据脚本中,每一行代码背后都蕴含着业务逻辑和数据关系。...有没有可能通过批量解析这些数据脚本,自动提炼出背后的数据逻辑,以及脚本之间的依赖关系呢? 本文介绍一种针对python代码的推导方法。

    1.8K41

    数据资产与治理:浅谈数据血缘的作用与价值

    数据资产管理与数据治理领域,数据之间的血缘关系是一个绕不开的话题,数据血缘的完备程度也是评价一个企业数据中台成熟度的重要度量之一。...直接删库跑路肯定不行,删除或归档任何一个数据,都需要尽可能全面的确认到底有没有下游的业务方在使用。 3.数据血缘的定义 数据血缘,顾名思义,数据之间的血缘关系,好比人之间亲情远近亲疏一样。...二、数据血缘作用与表现形式 1.数据血缘的作用 开篇的场景中的案例是数据血缘的两个典型的作用,总结成一句话就是数据血缘可以帮助数据生产者以及消费者更好地对数据进行追根溯源,提升数据运维、数据治理的效率。...2.血缘数据的存储演进 虽然传统的MySQL数据库也可以存储血缘数据,但是由于血缘数据的形态以及查询使用的场景对性能要求更高,所以在实际应用时,主要采用图数据库存储的方式。...针对数据血缘这一领域,也可以构建独立的数据产品模块,以数据产品提升血缘应用的效率。

    1.2K22

    数据血缘到底是什么?与类似数据概念有什么不同?

    了解数据血缘的重要性不言而喻! 那么,数据血缘与其类似的概念之间有什么相似性和差异性,它们之间的关系是什么呢? 对不同来源中与数据血缘类似的概念进行分析,得到如下概念清单。 数据价值链。 数据链。...数据流。 数据集成架构。 信息价值链。 为了便于记忆,将它们放入图1中。 图1 与数据血缘类似的概念 ▊ 数据血缘 几种DAMA出版物对数据血缘的定义有所不同。...数据血缘是“它(数据)从源点移动到使用点的路径”。 在DAMA-DMBOK2中,术语数据血缘数据流可互换使用。它将数据流定义为“一种数据血缘文档,它描述了数据如何在业务流程和系统中移动”。...数据血缘描述了数据从源点到目的地的路径,以及数据在路径中进行的转换。 数据血缘数据流和数据集成架构都是同一个概念。DAMA的出版物将数据血缘数据流和数据集成架构视为同义词。...其他几个概念的定义也与数据血缘类似。所有这些概念在不同的抽象层级上描述了数据的流动和转换。 这些概念名称经常互换使用。数据链被认为是数据血缘的同义词。数据流被定义为数据血缘的一种类型。

    93740

    【开源项目推荐】通用SQL数据血缘分析工具——Sqllineage

    一、概述 简单来说SQLLineage 是一SQL血缘分析工具,而由于SQL在数据分析中的通用性,SQLLineage 是一数据血缘分析工具。...数据血缘(Data Lineage),也有翻译为数据沿袭,都数据血缘(Data Lineage)是指追踪数据从其源头到目的地的路径,包括它在整个数据生命周期中的流动、转换和使用情况。...数据血缘的核心目的是提供对数据流动和变化的完整可视化,从而帮助组织理解数据的来源、经过的处理步骤以及最终如何被利用。...数据血缘是元数据管理的重要组成部分,通过收集获取元数据可以分析生成数据血缘,这样可以增加数据透明度,便于审计和合规,也就是说数据血缘数据安全,数据管理领域意义重大。...而SQLLineage可以通过多SQL的分析来快速的了解血缘的来龙去脉,所以说是一个数据血缘的分析神器。 我们假设有这样的一个SQL。 通过SQLLineage可以快速的分析出表级别的血缘

    69710
    领券