在数字化转型的背景下,数据是一把双刃剑,它能给企业带来业务价值的同时也是组织最大的风险来源。糟糕的数据质量常常意味着糟糕的业务决策,将直接导致数据统计分析不准确、监管业务难、高层领导难以决策等问题。
目 录
01 数据质量问题产生来源
02 数据质量问题域及分类
03 数据质量建设的五个原则
04 数据质量关键技术及流程
05 数据质量管理实践
01
数据质量问题产生来源
数据集成融合就和古人筑堤坝一样,古人筑堤坝是为约束河水,让自然资源为我所用,发挥自然资源的价值;今人做数据集成融合,建数据中台,是为了挖掘数据价值,发挥数据资源的价值,让数据资源为企业的业务创新发挥价值。
大数据时代数据集成融合的需求不仅要融合企业内部数据,也要融合外部(互联网等)数据。如果没有对数据质量问题建立相应的管理策略和技术工具,那么数据质量问题的危害会更加严重。据IBM统计,数据分析员每天有30%的时间浪费在了辨别数据是否是“坏数据”上。
02
数据质量问题域及分类
数据质量问题从大的方面可以划分为技术、业务和管理问题域。技术问题域包括数据校验不够、默认值使用不当等问题,通常是由于系统建设和数据处理导致的。业务问题域细分为信息问题域和流程问题域,业务上存在多渠道数据创建、不合理的数据变更流程的问题。管理问题域包括数据责任人不明确、没有奖惩制度,缺少培训等。
企业数据分为创建、加载、汇总、分析到展现5个步骤,很显然,步任何一步出错都会导致整个结论分析失真:
1.业务操作部门在数据录入过程可能输入错误的数据。这决定了数据源的质量。
2.在数据抽取、加载工程中导致数据记录丢失、数据重复等问题。
3.在数据加工、转换过程中,由于数据加工、转换的代码鲁棒性和稳定性不够,导致的数据加工结果出现的错误。
4.数据计算汇总过程中,导致的数据的错误。
5.分析展现工具将加工好的数据展现给数据分析人员、管理决策人员出现的错误。
在某种意义上讲,分析者所做出的决策的正确性来源于企业信息源的质量、数据仓库本身的质量、数据集市的质量以及数据仓库各过程的质量。在数据应用过程中5步中有4步是技术或管理造成的,只有1步会是录入环节导致。而恰好是这一步是数据中台无法管理和解决的业务系统的数据。因此从根本上解决数据质量问题,从源头解决是最有效的途径,在辅助数据中台从技术和管理上加强测试、规范和监控,那么数据质量问题的解决就水到渠成了。
03
数据质量建设的五个原则
总结古人治理黄河水患,主要有两种策略,一种是“疏通”,上策迁移民众和中策分流黄河水患,都是具体体现;另一种是“围堵”,加高增厚堤防,抑制河水烂漫。
治理数据质量的问题可以应用下古人的智慧和考量。采用规划顶层设计,制定统一数据架构、数据标准,设计数据质量的管理机制,建立相应的组织架构和管理制度,采用分类处理的方式持续提升数据质量,这是数据质量管理“疏”的方式。而单纯依赖技术手段,通过增加ETL数据清洗处理逻辑的复杂度,使用数据质量工具来发现ETL数据处理中的问题属于“堵”的方式,只能解决表面的问题,不是根本的解决方法。事实上这种方式也在好多企业中使用,其根本目的在于提高ETL处理的准确度,做法无可厚非,毕竟找别人的问题之前,先要保证自身是没有问题的。
按照多个行业实施数据质量管理项目的经验,数据质量管理应该是采用“疏”和“堵”相结合的方式,通过这种方式解决数据质量问题有5个原则。
1、全程监控原则:
全程监控是针对数据生命周期全过程中各环节进行数据质量监控,从数据的定义、录入、获取、计算、使用的全过程进行质量监控。数据定义阶段,对数据模型、字典枚举值进行监控,判断是否遵循了统一的标准。数据录入阶段对输入的合法性进行校验等,数据获取阶段对数据记录数、数据一致性进行检核等。明确各部门在数据全生命周期中的责任,全方位保证数据质量。
2、闭环管理原则:
从问题定义、问题发现、问题整改、问题跟踪、效果评估5个方面建立问题处理的闭环机制。从业务、技术两个维度出发做问题定义,由工具自动发现问题,明确问题责任人,通过邮件、短信等方式进行通知,将问题及时通知到责任人,跟踪问题整改进度,建立相应的质量问题评估KPI,保证数据质量问题管理闭环。
3、全员参与原则:
数据质量提升涉及到组织多个部门,包括不仅限于数据提供方、数据消费方、数据质量管理员等。尤其在数据质量问题定义和整改阶段需要多方人员的参与才能达到效果。在数据质量问题定义阶段,需要数据责任人、业务专家、数据使用人员对数据问题校验规则达成一致,共同制定数据检核范围、数据问题条件等。问题整改阶段,要由数据责任方、数据质量管理员和技术人员,共同定位问题原因并进行整改。
4、借助工具,自动检核:
数据质量工具保证问题发现的效率。在数据使用过程中深入分析已发现的数据质量问题的成因,及时由IT部门将其转化为技术规则落地到系统中,通过技术手段自动检核数据质量问题,提升数据质量检核效率。数据质量工具在采集到的数据模型元数据的基础上,通过配置自动生成检核规则的脚本,并通过设置数据质量检核任务的运行周期,定时检核数据质量问题,并将数据质量问题数据保存到系统中,便于用户进行查看和定位问题。
5、提升意识、主动管理:
数据质量管理工作需要提升全员数据质量意识,形成组织数据治理的文化氛围。数据使用方发现数据质量问题后,及时主动的进行问题的上报,避免数据问题对业务造成影响。数据责任人接到问题通知后,应主动配合数据管理部门进行问题整改。数据管理部门应该从事前预防数据问题出发,制定企业数据标准并加强宣贯,减少因为缺少统一的标准、规范导致数据质量问题。
04
数据质量关键技术及流程
在“五个原则”的指导下开展数据质量建设工作,从平台层面需要制定数据质量管理的功能架构。
基于全栈式信创能力,普元数据质量平台包括了规则定义、任务管理、调度执行、生成检核结果、形成质量分析报告、问题处理、沉淀知识库、质量监控,涵盖了数据质量问题的发现、整改、反馈的整个流程。
通过对不同业务规则的收集、分类和抽象,我们定义了这几个质量维度:完整性、有效性、正确性、唯一性、及时性、合理性。
基于以上几个质量维度,总结了业务场景中常用的检核规则,提供模版式的检核规则配置方式,便于使用者快速配置。这些检核规则包括:空值检查、值域检查、有效性检查、规范检查、及时性检查、重复数据检查、完整性检查,当然,我们也保留了原先的自定义SQL的配置方式。
新的数据质量平台中,提供了业务化的检核规则配置方式,提供了常用的检核类型,满足实际场景使用需要。
业务化的检核规则配置步骤有:基本信息、规则配置、结果配置、告警配置。其中,规则配置根据检核规则类型不同,具体的配置会有所不同。
那么,如何从技术实现和管理流程方面,保障企业数据质量的稳步提升?
检核脚本生成和调度执行
检核规则采用业务化配置和模版导入方式输入检核规则,通过系统内置SQL引擎,实现检核脚本的自动生成,从而降低业务规则转化为技术实现的成本,提高业务规则的实现效率。
数据质量平台的调度模块则按照检核任务的执行频度设置,周期性或定时执行检核任务。
规范管理流程
在数据使用过程中,深入分析已发现的数据质量问题的成因,及时由IT部门将其转化为技术规则落地到平台中,通过技术手段自动检核数据质量问题,提升数据质量检核效率。
数据质量平台在采集到的数据模型元数据的基础上,通过配置自动生成检核规则的脚本,并通过设置数据质量检核任务的运行周期,定时检核数据质量问题,并将数据质量问题数据保存到平台中,便于用户进行查看和定位问题。
同时,根据数据的检核结果,平台自动形成检核指标、检核规则的分析结果,生成质量趋势的分析报告。
由此,形成从问题定义、发现、分析,到问题的处理和跟踪,再到数据质量评估和统计分析的管理流程。
形成有效的闭环管理
在形成规范流程的基础上,从业务、技术两个维度出发做问题定义,由工具自动发现问题,明确问题责任人,通过邮件等方式进行通知,将问题及时通知到责任人,跟踪问题整改进度,建立相应的质量问题评估KPI,保证数据质量问题管理闭环。
通过建立数据质量闭环管理机制、明确各部门关于数据质量提升工作的分工职责并强化执行;同时基于数据管理工具,持续改进管理流程,支撑企业级数据质量管理,确保企业级数据质量稳步提升。
05
数据质量管理实践
为实现数据质量的切实落地,推进数据质量问题的有效解决,某一线城市大数据中心的数据质量工作开展,按照发现问题、分析问题、提出方案、解决问题等几步来进行。
第一步:设置数据质量规则。即针对不同的数据对象,配置相应的数据质量指标,不限于:数据唯一性、数据准确性、数据完整性、数据一致性、数据关联性、数据及时性等。
第二步:分析数据质量问题产生的原因。可能是技术层面数据模型设计的质量问题,也可能是业务层面系统相互独立导致数据无法对接或者是业务端进行数据录入时未按照规范进行录入。
第三步:选择解决办法。技术上可以通过ETL工具按照数据标准规范进行数据清洗和标准;业务上可以对业务系统进行升级改造和数据补录。
第四步:质量检测,监督检查。设置数据检查任务对存量数据进行检查,形成数据质量问题清单并出具数据质量问题报告。通过定期对系统开展全面的数据质量状况评估,从问题率、解决率、解决时效等方面建立评价指标进行整改评估,根据整改优化结果。
案例参考文献:
姚丝雨.城市公共数据治理初窥[EB/OL]
关于作者:庆会,普元资深架构师,主要负责普元大数据治理产品研发和项目实施,十年大型企业信息数据治理架构设计与建设经验,为多家大型金融机构、企业设计与规划数据管理整体框架和项目实施。数据行业有着深入的研究和洞察,并对企业信息化平台建设,数据治理及大数据平台建设有着丰富经验。
关于作者:新会,普元资深架构师,先后负责数据建模、主数据、容器云、DevOps等多个产品的设计和研发工作,热衷于对DevOps、数据治理、云计算、微服务架构等相关技术的研究。
关于EAWorld
全栈赋能信创,共创数智未来!