本次更新继续分享企业数据治理的相关学习心得,知识点源自《DAMA数据管理知识体系指南》第8章,内容上衔接前一次更新,核心关于企业参考数据与主数据管理。
001
参考数据和主数据的整合
发现和理解单一应用程序的参考数据和主数据的需求比较容易,而对跨应用,特别是整个企业的需求把握则难得多。成功地管理参考数据和主数据的企业每次都重点关注一个主题区域,分析在所有物理数据库和不同应用模式中一些业务实体出现的所有匹配情况
成功的企业首先理解参考数据和主数据的需求,然后跟踪这些数据的血缘关系,以确定数据的起始及中间的源数据库、文件、应用,甚至创造和维护这些数据的角色岗位,做到在了解上游数据源的情况下理解下游的数据需求,以期在数据的源头捕获高质量的数据
没有数据整合架构,只会是在应用孤岛中存在本地参考数据和主数据管理,因而不可避免地导致冗余和不一致的数据
参考数据和主数据整合的基本方案有几种,有时比较容易确定某一权威数据源并正式将其建成记录系统(例如代码管理系统,小编认为这里的翻译欠佳,但一时也未能找到更合适的词,只能提示与编程代码不同),记录数据库作为参考数据的中心向其他应用和数据库提供参考数据
一些应用程序可以直接从数据库中的记录读取参考数据和主数据,其他应用程序从数据库中订阅和复制发布的数据记录
复制的数据可实时更新其他数据库,更常见的是,当记录数据库发生更新时,复制的数据通过“订阅和发布”方法近似实时地被推送到其他应用程序的数据库中(异步更新)
每个主数据主题域将可能有自己专用的记录系统,例如:
人力资源系统通常是雇员数据记录系统
CRM系统可以充当客户数据记录系统
ERP系统可以作为财务和产品的记录系统
只有参考记录或主记录数据库才应是向数据仓库和数据集市复制参考数据或主数据的源系统,其更新应该传播到数据仓库和数据集市中去
另一种基本的“运转中心”设计的实现方法是让每个记录数据库把权威的参考数据和主数据提供给操作型数据存储(ODS)系统,再由ODS作为向所有OLTP应用提供参考数据和主数据的中心。有些应用程序甚至可以使用ODS作为自身的数据库使用,而其他应用程序可采用“订阅和发布”方法从ODS数据中心复制数据到其专用的应用程序数据库中
在没有清晰的主数据记录系统时,数据中心模型特别有用。来自一个系统的新数据或更新可能需要与其他系统已经提供的数据进行核对。ODS成为数据仓库主要数据源,降低了数据抽取的复杂性,并减少数据转换、清晰和核对的处理时间。当然数据仓库必须保存ODS的数据历史变更,而ODS只需保存数据的当前状况
数据整合架构也提供通用的数据整合服务,包括:
变更请求处理
对外部获取的参考数据和主数据进行质量检查
数据质量规则和匹配规则应用的一致性
数据处理的统一模式
一致的有关映射、转换、程序和工作的元数据
一致的审计、错误的解决方案和性能监控数据
统一的复制数据方法
002
实施参考数据和主数据解决方案
由于需求的多样性、复杂性和不稳定性,没有单一的解决方案或实施项目满足所有的参考数据和主数据管理需求。在架构、业务优先级和实施计划路径的指导下,企业应期望通过几个相关的项目和阶段,采取迭代和增量方式实施参考数据和主数据管理解决方案
有些组织可能有一个集中的代码管理系统,它为业务数据管理专员提供一个共同的、统一的设施来维护“黄金的”、权威的参考数据。需要访问参考数据的其他系统可以直接访问代码管理数据库或接收数据库代码管理库中的更新数据。这些系统包括交易管理系统和数据仓库。尽管做出了最大努力,很少有系统能够保证完整的数据范围;不管什么原因,缺乏管理的参考数据仍然存在
有些供应商提供主数据管理应用,例如CDI(客户数据整合),PDI(产品数据整合)或其他主题领域的主数据管理,如当事人,位置和财务结构,有些还在商务智能环境中管理它们间的层次关系
003
建立“黄金”记录
因为参考数据集都是包括不同取值的数据值域,所以每个参考数据集都是被作为受控词汇进行管理的。参考数据通常在应用程序中作为值列表出现,也经常在内容管理引擎中作为搜索标准出现
词汇管理是术语/概念以及和相互之间的关系的集合。词汇可以在很多层次上对术语和概念进行描述,词汇管理包括词汇及其参考数据的定义、溯源、导入和维护,业务数据管理专员负责维护词汇及其相关的参考数据集(代码、标签、意义、关联)
小编说:
《指南》这里提及的词汇管理,小编认为与档案管理中的主题词原理相似。目前很多企业档案管理中已经不再使用“主题词”标引了,甚至连公文主题词在发文流程中也取消了。大多数企业档案从业人员可能认为有了全文索引与搜索引擎就不在需要主题词了。小编个人角度认为这种观点有些短视,全文搜索的原理始终建立在分词技术与精确匹配,人类语言中词的语义变化及词间概念上的联系(本体论)不用相关的技术手段“告知”计算机,其无法处理(即使是通过AI或文本挖掘给内容打“标签”也必定伴随着词的标准化)。善用主题词将利于企业对非结构化数据集市、专题库的搭建与分类,并提高检索效率,有利于企业进一步实施知识管理。
词汇管理上经常问到几个关键问题,了解这些问题的答案将会有效地促进数据整合:
该词汇支持哪些信息概念?
谁是这些词汇受众?他们用来支持什么流程以及承担什么角色?
为什么需要这些词汇?他是否支持应用、内容管理、分析等?
谁负责确认和批准优选词汇和词汇术语?
不同的群体信息进行分类所使用的现有词汇在哪里?它们是如何产生的?谁是负责它们的相关主题领域的专家?
是否有现行的标准可以用来满足这些需要?是否关注有关外部标准与内部标准的使用?多久更新一次标准和每个更新的变化程度是什么?这些标准是否可以通过像导入/维护格式这样简单的方式来获取?
词汇管理中最终的活动是确定首选术语及其同义词
“黄金”数据值是那些被认为最准确、最新,并与跨应用共享和一致使用的相关数据值。企业确定黄金值得手段包括通过分析确定数据质量,应用数据质量规则和匹配规则,以及在获取、建立和更新数据的应用系统中嵌入数据质量控制过程
应用程序可以执行的数据质量规则包括:
针对引用的数据和关键业务规则嵌入简单的编辑检查
创建录入新记录前,通过应用程序自动的数据标准化和创建前搜索检查
如果数据不满足准确度预期,要向用户给出提示,同时通过某些方式来提交保存例外情况记录,以备将来审计之需
术语和缩写标准化是一种数据清洗活动,以确保某些术语和它们的缩写一致地出现在标准化的数据集中。数据清洗工具通常提供标准化的辞典,将不同的词语和缩写转换成标准词汇或缩写
在整合环境中嵌入一组数据质量规则可以使任何数据源使用同一组校验和标准化规则,数据经过规范化和清洗之后,下一步就是应用匹配规则来尝试消除冗余数据
004
计划和实施新数据源的整合
整合新参考数据源包括但不限于:
从不同群组接收和回应新数据采集请求
使用数据清洗和数据剖析工具执行数据质量评估服务
评估数据整合的复杂性和成本
试点数据采集和匹配规则的影响
确定数据质量负责人
确定数据质量指标
005
管理参考数据和主数据的变更
在受管理的主数据环境中,需由特定的人来承担业务数据管理专员角色。他们有权建立、更新和作废参考数据值,并且在有些环境下可在较小范围内完成主数据值的类似操作
参考数据集变化比较缓慢,有时条目和代码会被废止,被废止的代码仍然会出现在交易数据的关联环境中,因此为了保证参照完整性,这些代码可能不会消失,数据仓库中发现的代码也代表着历史的真相,因此代码表需要有效时期和失效日期字段,并且应用程序逻辑在创建新的外键关系时必须参照当前的有效代码
新代码需要与旧代码联系起来,数据仓库不仅要说明历史数据以前是如何汇总的,还要描述按照新的代码结构如何进行汇总
要审慎评估参考数据变化带来的影响,如果某词汇不再使用,要主动告知它的数据用户以减少该数据退出使用而造成的影响。此外关系的变化可能会影响现有的整合和数据聚合规则
实现成功的主数据管理的关键在于如何说服原来的控制人放弃对原有的共享数据的本地控制
综述
共享的参考数据和主数据属于整个组织,而非特定应用系统或部门
参考数据和主数据管理是一个持续的数据质量改进计划,其目标不可能在一个单独项目中完成
业务数据管理专员是控制参考数据值的权威负责人,业务数据管理专员和数据专家共同协作以提高参考数据和主数据的质量
“黄金”数据值是指组织尽最大努力所确定的适合关联环境的、最准确、最新的相关数据值。新数据可能证明先前的假设是错误的,因此需要审慎地应用匹配规则,并确保所做的任何改变是可逆的。
只从记录数据库复制主数据值
变更管理流程:请求、沟通,在某些情况下批准后方可实施变更
▼
领取专属 10元无门槛券
私享最新 技术干货