数据质量问题产生原因
在进行数据质量提升前,首先需要探究数据质量问题产生的原因。一般数据质量问题的原因与数据标准的三方面组成是一致的,即管理层面、业务层面、技术层面。
针对管理方面导致的问题,可以完善相关制度后,发布执行;针对业务层面和技术层面导致的问题,则需要进行问题等级评估后,再进行进一步处理。
我们可以结合数据资产等级、问题类型、影响范围、数据质量问题引起的资损等指标来评估数据质量问题的等级。对于数据质量问题等级低或修复收益(ROI)低的数据质量问题,可以先暂时不进行数据修复,反之,则要及时进行数据处理。
可参考阿里的数据资产等级:
五个数据等级,不同性质的重要性一次降低:
对于不同的数据资产等级,使用英文 Asset 进行标记:
重要程度:A1 > A2 > A3 > A4 > A5;
可以通过代码或者SQL语句等方式新增、修改和删除问题数据记录。在进行数据修复时,我们需要考虑修正的表和字段的相关引用,考虑订正操作是否带来什么负面影响。在进行数据订正时,可参考下面4个原则。
进行数据修复操作时,需要确保修复数据量的正确,即确保该更新的更新,不该更新的不动;该加的加,(尽量避免删操作)确保修复的值与预期的值一致;确保操作的数据库名、数据表和字段名正确;对于主键唯一的字段,确保订正后无重复主键。
如果修复失败或出现其他问题,可以视情况进行回归或者进行二次修复。如果回滚了,需要确保回滚后的数据与数据修复前一致。
可以将出现的质量问题进行归档,为后续学习或出现类似问题时,提供参考案例。
通过上述措施,形成闭环,逐渐地提升数据质量。那么问题来了,有了大数据测试方法+数据质量的管理方式,我们就可以保证企业的数据质量了吗?还有没有其他方式方法?欲知后事如何,请看下篇文章~
参考资源:
看完今天的分享对你是不是有所启发呢,有任何想法都欢迎大家后台私信我,一起探讨交流。
本文分享自 rainbowzhou的成长足迹 微信公众号,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体同步曝光计划 ,欢迎热爱写作的你一起参与!