全文约3500字 阅读约5分钟
数据目录、数据清单、数据字典是良好数据治理活动的组成部分。它们被经常混用,但它们并不相同。
数据目录汇总了组织中数据资产的整体概况;数据清单详细说明了组织中可用的所有数据集,并显示所有相关元数据;数据字典定义了这些数据集的规则,指示了它们的格式、形状、schema。
这些数据秘籍的最大挑战是保持其最新。由于数据采集管道的速度和数量是天文数字,因此需要自动化和敏捷的协议来更新它们。
拥有这些数据秘籍并保持最新,可确保高效的数据交互,使企业团队能够简化其数据操作并获取有价值的数据洞察。
数据清单是执行数据清点/盘点的基础。一个高价值的数据安全平台,应该能够自动化维护一个持续更新的数据清单,其中包括敏感数据的分类分级。
目 录
1.数据治理中的三本秘籍
1)数据目录(Data Catalog)?
2)数据清单(Data Inventory)?
3)数据字典(Data Dictionary)?
2.为何需要这些数据秘籍
1)为何需要数据目录?
2)为何需要数据清单?
3)为何需要数据字典?
3.数据秘籍之间的区别
1)数据目录 vs. 数据清单
2)数据目录 vs. 数据字典
3)数据清单 vs. 数据字典
4.创建数据秘籍的关键因素
1)重点关注敏感数据
2)持续敏感数据发现
3)确保对半结构化数据进行分类分级和更新
01
数据治理中的三本秘籍
1)数据目录(Data Catalog)
数据目录是企业用来管理其数据的集中式元数据存储库。其中概述了企业数据资源的组织、使用、管理的信息。该目录支持数据工程、分析操作、科学的功能。
数据目录的目标是使数据管理变得简单有效,共享有关收集和存储在组织中的数据的知识和信息。它概述了各种管道中的数据流,并提供数据景观的鸟瞰图。
数据目录通常与它们所引用的数据集分开存储在数据仓库或数据湖中。
数据目录的建立,需要遵循以下五个步骤:
2)数据清单(Data Inventory)
数据清单是数据清点/盘点的成果。数据清单是集中化的元数据集合,它指示了组织收集和维护的所有数据集。该文档(或文档集合)精确定位每个数据集的位置及其包含的数据类型。
数据分析师使用数据清单来确定哪些数据可用以及如何访问它们。
数据管理员维护数据清单,并为每个数据集制定相关的数据访问策略。
数据清单的主要挑战是保持最新。最有效的方法是通过自动化方式持续更新数据清单。
数据清单的示例如下:
3)数据字典(Data Dictionary)
数据字典描述了如何命名和定义数据资产的信息。数据字典通常包含围绕数据资产、关系、有关来源和使用的元数据、数据schema等术语的集中定义。比如数据资产的名称、设置和其他重要属性。
数据字典示例。数据字典通常包含以下元素:
有两种类型的数据字典:
数据字典的创建方法。大多数情况下,由计算机辅助软件工程创建的数据库管理系统和信息系统,都包含动态数据字典。团队可以使用这些字典作为创建数据字典的起点。如果您无法自动生成可机读的数据字典,则可以使用单源字典,例如电子表格中包含的字典。
02
为何需要这些数据秘籍
1)为何需要数据目录?
当您拥有跨多个数据字典且可供多个用户访问的数据时,最好有一个数据目录。数据目录将这些数据组织成简单、易于消化的形式,从而简化数据提取和处理。
数据目录有助于改进数据管理。它们提供组织中可用数据集的高层级类别信息,从而提供高层级洞察和分析。该资产使干系人能够有效地找到存储在不同位置的任何类型的相关数据集,例如数据湖、仓库和其他数据库。
数据目录可支持数据工程操作。数据目录通过跟踪数据schema变更,来支持数据工程操作,以促进数据管道中的转换和聚合。数据目录通过在发生变更时触发警报,来帮助数据工程师检查传入数据是否符合预期schema。
数据目录使组织能够有效跟踪数据资产,并使干系人能够快速轻松地找到相关数据集,同时适应不断变化的数据环境。
2)为何需要数据清单?
数据清单满足数据法规合规性。依据GDPR(欧洲通用数据保护条例)等数据治理法规,要求企业知道他们收集和存储的所有敏感数据的位置,这隐含要求了详细和最新的数据清单。这在收集个人身份信息(PII)时尤其重要。
数据清单提供了数据可见性。当组织拥有广泛的数据采集时,了解其所拥有的数据及其有用的原因是一项艰巨的任务。而数据清单可以成倍地简化此任务,因为它提供了组织拥有的数据及其位置的详细信息。数据清单为数据消费者提供了数据发现和访问的起点。数据清单也简化了数据跟踪,因为组织的数据现在本质上是可搜索的。
3)为何需要数据字典?
数据字典可以防止数据冗余和歧义。当企业拥有被许多用户访问的大量的定量数据时,数据字典是必不可少的,因为它可以防止数据冗余和歧义。如果使用得当,数据字典可以提高效率。虽然准备这份文件可能需要一些时间,但长期的结果是值得的。
数据字典有助于防止在项目中使用数据资产时出现不一致和冲突。
数据字典中的元数据,主要关注数据资产的业务属性。它通常促进业务干系人和技术用户之间的沟通,确保所有信息、内容、格式都满足要求。
数据字典可用于支持数据工程操作。数据字典与数据仓库、关系数据库、数据管理系统密切相关。
03
数据秘籍之间的区别
1)数据目录 vs. 数据清单
2)数据目录 vs. 数据字典
3)数据清单 vs. 数据字典
04
创建数据秘籍的关键因素
创建数据目录、数据清单、数据字典是现代数据处理中的基本功能。然而,这些过程存在一些固有的常见缺陷,特别是在处理敏感数据和非结构化或半结构化数据时。此时,数据目录、数据清单、数据字典协同工作,共同构成了理解和保护这些数据的基础。
1)重点关注敏感数据
敏感数据应该被准确地标记、编目和清点,因为知道数据在哪里以及它有多敏感,可以采取进一步的数据保护措施。
组织应该分配对这些敏感数据的所有权,因为知道谁对数据负责会产生保护它的紧迫性。
限制对敏感数据的访问,并在数据目录中相应地更新使用和访问指南。
2)持续敏感数据发现
勾勒并实施协议,以不断发现组织数据结构中的敏感数据。如果企业不知道那里有敏感数据,就无法开始保护它。
3)确保对半结构化数据进行分类分级和更新
半结构化数据不适合明确定义的结构或schema。相反,它是通过标签进行组织的,这些标签允许对它们进行分组和组织。这些非关系或NoSQL数据类型通常难以捕获、分类分级、更新,但它们构成了数据治理的重要组成部分。
需要实施一些流程来识别和编目此种数据,以确保组织不会创建一个充满暗数据的湖泊。
(本篇完)