大数据和机器学习都是和数据打交道。因此,在系统中保持数据的正确性就非常重要。如果数据不准确,不仅仅会降低系统的效率,还会得到一些不恰当的观点。通过数据质量和验证是确保数据正确性的重要步骤之一。随着数据量的不断增加,噪声数据也随之而来,每天都要引入新的方法和检验以确保数据的质量。由于数据量巨大,需要考虑的另一件事是如何确保快速处理这些检查和验证;例如,一个系统采用高分布式的方法来遍历每一条进入系统的数据。本文将讲述关于数据质量和验证检查的一些例子,以及在Apache Spark和Scala的帮助下运用程序来确保数据质量是多么简单。
数据准确性:指的是观测结果和真实值或可接受为真的值之间的接近度。
空值: 包含空值(null)的记录。如: male/female/null
特定值: 某公司的ID号。
模式验证:每一批数据必须遵循相同的列名和数据类型。
同列下的值重复(如记录中重复的email)
唯一性检查: 各记录关于某列值是唯一不重复的,这一点和重复性检查类似。
正确性检查:可以使用正则表达式进行检查。例如,我们可以查找包含@的电子邮件id。
数据的普及性:你的数据有多及时?假定每天都有数据进入,随后要检查数据并打上时间戳。
数据的质量和验证检查的条目可以源源不绝,但是基于Spark和Scala的方法的好处是,用较少的代码,可以利用海量的数据达到更多目的。
有些时候,一个系统可能有某些特定的需求,这与谁需要这些数据以及以什么形式数据有关;同时这些数据使用者会对数据提出假设。
数据的可用性: 使用者可能对数据有特定要求,如:
列1的值不等于列2的值
列3的值应该等于列1的值加上列2的值
列x的值不应该超过x%的时间
然而这些被看作基本的数据验证,还有一些更高级别的检查来确保数据的质量,如:
异常监测:这包括两个主要方面:
比如给定维度,如基于时间的异常。这意味着在任何指定时间范围内(时间片段),记录数不能超过平均值的x%。为了做到这点,运用Spark做法如下:
假定时间片段为1分钟。
首先,需要对时间戳列进行过滤和格式化处理,如此时间戳才能以分钟为单位表示出来。这将产生重复,但是这应该不是问题。
接下来,运用groupBy,
如下:
sampledataframe.groupBy("timestamp").count()。
算出平均值,同时找出记录数超出均值x%的那些时间片段(如果存在的话)。
排序
记录应该遵循一定的顺序。例如,在一天内,某个消费者的数据记录应该是从产生兴趣开始,点击,加载页面,加入购物车,最后以购买结束。这些可能只是部分记录,但它们应该遵循一定的顺序。为了检查顺序,运用Spark做法如下:
groupBy("ID") – 以序列号分组
对每一分组运行排序检查
循环依赖:让我用一个例子来解释这点。
如果从列A到列B中取出两列,记录如下:
如果应用程序要得到家庭关系结构,这会形成一个环状依赖关系。
故障趋势
考虑到每天都有数据进入系统。让我们设想它的行为或接触点数据。为了简单起见,我们将每天的数据称为一‘批’。在每一批数据中,如果我们都会得到一组完全相同的故障,则一定存在跨批次的故障趋势。
如果故障是源于相同的一组email_id(邮箱号为一列字段),则这可能是自动程式行为的征兆。
数据偏倚:这意味着在图形上数据呈现一个连续的偏差。如:
如果向时间戳上加上30分钟,那么所有的记录都会有这30分钟的隐形偏倚。如此一来,如果预测算法想要使用这些数据,这种偏差将影响结果。
如果用来生成这些数据的算法有学习偏差,那么对一组数据会生成更多的默认值,随后用于其他数据。例如基于购买行为,它会预测出错误的购买者性别。
自动程式行为: 通常,一个自动程式行为如下:
它使用相同的唯一标识符生成记录。像前文提到的同一组email_id。
它会在任何特定时间生成网络流量。这是基于时间的异常现象。
它生成的记录有固定顺序:跨数据批次的顺序检查。
【关于投稿】
如果大家有原创好文投稿,请直接给公号发送留言。
① 留言格式:
【投稿】+《 文章标题》+ 文章链接
② 示例:
【投稿】《不要自称是程序员,我十多年的 IT 职场总结》:http://blog.jobbole.com/94148/
③ 最后请附上您的个人简介哈~
看完本文有收获?请转发分享给更多人
关注「数据分析与开发」,提升数据技能
领取专属 10元无门槛券
私享最新 技术干货