随着三网融合、移动互联网、云计算、物联网的快速发展,数据的生产者、生产环节都在急速攀升,随之快速产生的数据呈指数级增长。在信息和网络技术飞速发展的今天,越来越多的企业业务和社会活动实现了数字化。全球最大的零售商沃尔玛,每天通过分布在世界各地的6000多家商店向全球客户销售超过2.67亿件商品,每小时获得2.5PB的交易数据。而物联网下的传感数据也慢慢发展成了大数据的主要来源之一。有研究估计,2015年全球数据量为8ZB,而到2020年则高达35.2ZB,是2015年数据量的44倍之多。此外,随着移动互联网、Web2.0技术和电子商务技术的飞速发展,大量的多媒体内容在指数增长的数据量中发挥着重要作用。
大数据的数据来源复杂、结构各异、质量参差不齐、数据规模大、存算过程长给数据质量管理带来挑战。
数据质量管理是指对数据从产生、获取、存储、共享、维护、应用等各个阶段可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使数据质量获得进一步提高。
解决企业内部数据使用过程中遇到的数据质量问题,提升数据的完整性、准确性和真实性,为企业的日常经营、精准营销、管理决策、风险管控等提供坚实、可靠的数据基础。
大数据时代下的数据信息系统更容易产生数据质量问题,直接影响到数据在流转环节中的各个方面,给数据存储处理分析性能、数据质量保障都带来了很大的挑战。
数据都存在一个生命周期,数据生命周期是指数据从创建、修改、使用到归档/销毁的整个过程。在数据的生命周期过程中影响数据质量的因素主要来源于四方面:信息因素、技术因素、流程因素和管理因素。
(1)信息因素:元数据描述及理解错误、数据度量的各种性质(如:数据源规格不统一)得不到保证和变化频度不恰当等。 (2)技术因素:主要是指由于具体数据处理的各技术环节的异常造成的数据质量问题。数据质量问题的产生环节主要包括数据创建、数据获取、数据传输、数据装载、数据使用、数据维护等方面的内容。 (3)流程因素:是指由于系统作业流程和人工操作流程设置不当造成的数据质量问题,主要来源于系统数据的创建流程、传递流程、装载流程、使用流程、维护流程和稽核流程等各环节。 (4)管理因素:是指由于人员素质及管理机制方面的原因造成的数据质量问题。如人员培训、人员管理、培训或者奖惩措施不当导致的管理缺失或者管理缺陷。
数据质量管理的价值
建设一个完整的数据质量管理平台,对数据进行检核与统计,从制度、标准、监控、流程几个方面提升数据信息的管理能力,解决项目面临的数据标准问题、数据质量问题,为数据治理提供准确的数据信息。完成从发现数据问题到最后解决数据问题,不断提高数据质量,形成数据产生、数据交换、到数据应用过程中数据质量的统一管理与控制。
常用的数据质量评价标准在上述内容提到过:数据唯一性、数据完整性、数据准确性、数据一致性、数据关联性、数据及时性等。
在Information Impact International公司的总裁Larry的书《改善数据仓库和企业信息的质量》中,他发现错误数据能够花费公司整个预算资金的10%-20%。在IT部,其修正错误数据的费用将达到预算的40%-50%。即使对于最小的公司而言,客户数据都会来源于多种系统。因此,在每一个数据点上知道“哪一种数据来源最可靠”是非常必要的。
数据质量管理流程
主要手段是监控手段主要包括两个方面,一是监,数据质量校验,二是控,告警和处理。
在这些环节中,可以采用以下方式来保障数据质量:
(1)代码核查开发相关的规则分类大致为:
代码规范类规则:如表命名规范、字段命名规范、生命周期设置、表注释等-代码质量类规则:数据清洗规则是否符合业务预期需求、特定字段的数据格式是否标准统一等。代码性能类规则:如是否存在大小表join操作、多表进行join操作等
(2)代码发布核查加强测试环节,测试环境测试后再发布到生成环境,且生成环境测试通过后才算发布成功。
(3)数据质量监控规则包括可以有多种形式:
1.主键监控
2.表数据量及波动监控
3.重要字段的非空监控
4.重要枚举字段的离散值监控、指标值波动监控
5.业务规则监控
(4)告警和处理
告警和处理分为两个阶段,一是告警,当数据质量出现问题的时候,需要及时通知责任人,二是处理,出现上游数据污染,根据规则级别,需要及时阻塞下游任务,并处理上游任务。
设置质量管理点或质量控制点,从根本上解决数据质量问题。一旦发现数据的异常值,抓住影响数据质量的关键因素,可以根据数据产生的逻辑顺藤摸瓜找到产生数据的业务环节。
1.DQ: Data Quality
2.DQC:数据质量控制
3.强规则: 符合一定条件会阻塞任务的规则
4.弱规则: 即使符合条件也不会阻塞任务
5.阈值: 监测的数据质量范围
6.表的平均波动率:一段时间内每日环比的均值
7.表的平均记录数:记录数的每日均值
8.表的平均报警数:报警数的每日均值