Loading [MathJax]/jax/input/TeX/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >大数据系列之数据质量浅探

大数据系列之数据质量浅探

作者头像
苦叶子
发布于 2018-08-17 08:07:38
发布于 2018-08-17 08:07:38
7660
举报
文章被收录于专栏:开源优测开源优测

先看一下数据质量管理的定义:

数据质量管理(Data Quality Management),是指对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高。

再为了更好的了解数据质量管理,请软件测试从业者简单的问自己几个问题:

1. 所在企业或团队或自己是否有意识的、或是无意识进行了数据质量保证工作?(例如是否有在管理上、流程上、技术上、目标上等维度进行考量)

2. 在你的职业生涯中,是否有因数据问题导致线上环境出现长时间的中断、崩溃等等?

3. 在你的职业成长规划中,你是否有规划或已经准备积累数据质量保证相关的知识和技术能力?

对于很多软件测试从业者来讲,在工作中几乎时时刻刻要面对亿万记录的数据量,但大都未有意识的去考虑数据质量问题,但却又时时被坏、脏等数据带来的隐患、问题折磨

数据质量的保证不简单的技术问题,必然涉及以下几个方面:

码字不易,点点点下我,以示支持哈

1. 首当其冲的是企业管理因素

主要指企业对数据质量的重视程度、人员素质及管理机制等方面可能造成的数据质量问题、隐患等

如果企业或团队压根就不重视,那一切都免谈了。

2. 其次则是作业流程

这里的作业流程既是指数据质量保证日常工作的作业流程,也是指数据处理作业流程。即既要规避人为的操作不当,亦要规定技术处理的流程以免因系统作业流程不当导致数据质量隐患、问题。

3. 技术因素

这里主要是在实际的数据处理各技术环节的异常所带来的数据质量问题,例如数据创建、获取、传输、装载、使用、维护、存储等等环节

是软件测试从业者可以大发挥的地方,尤其是把技术与测试的结合,会产生无穷的力量

4. 元数据或是说信息因素

这里有两个大的方面,一是人对数据的理解,二是数据本身。即人对数据的理解的偏差会导致数据质量隐患问题。

数据本身元属性的定义或变化频度异常等等导致的数据质量隐患问题。

可以加入我的永久免费知识星球一起讨论各种姿势和技术

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-08-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 开源优测 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
“数据质量”入门
数据质量管理,是指对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高。
用户5548425
2019/07/16
1.3K0
“数据质量”入门
五个原则下的数据质量建设之道
在数字化转型的背景下,数据是一把双刃剑,它能给企业带来业务价值的同时也是组织最大的风险来源。糟糕的数据质量常常意味着糟糕的业务决策,将直接导致数据统计分析不准确、监管业务难、高层领导难以决策等问题。
yuanyi928
2023/01/11
7690
健康医疗大数据,数据自身“健康”是关键
众所周知,数据是事实或结果,是用于表示客观事物的未经加工的的原始“素材”。这种“素材”应当具备真实性、完整性、一致性、准确性和自洽性,这是数据的基本属性,亦称数据的绝对质量。保证原始数据的可靠性,是大
陆勤_数据人网
2018/02/28
8160
健康医疗大数据,数据自身“健康”是关键
关于DAMA数据质量管理的解读和一些看法
数据质量管理是组织变革管理中一项关键的支撑流程,包括整合数据源、创建一致的数据副本、交互提供数据或整合数据。数据清洗不能解决数据缺陷的根本原因。
python与大数据分析
2022/03/11
1.3K0
关于DAMA数据质量管理的解读和一些看法
大数据测试学习笔记之数据质量
大数据测试学习笔记之数据质量 数据质量定义 先搜索了一把,发现当前对于数据质量的定义没有一个共识的定义,通过阅读一些资料,做了些总结,可以从以下几个方面来定义数据质量: 从用户层级定义数据质量:即满足特定用户预期需要的程度 从数据本身定义数据质量:即从数据质量的指示器和参数指标等方面来衡量(真实性、完备性、自治性等) 从数据约束关系定义数据质量:即从数据的原子性、数据的关联性及对数据的约束规则来度量数据质量 从数据过程定义数据质量:即从数据能被正确使用、存储、传输等方面定义质量 数据质量问题分类 在数据的处
苦叶子
2018/04/09
2.1K0
大数据质量管制规范示例
在当今大数据信息时代,大数据平台(大数据平台开发规范示例)和大数据仓库(大数据仓库开发规范示例)的开发规范已成为组织和企业管理决策的重要基础。
一臻数据
2024/12/24
1810
大数据质量管制规范示例
如何测试数据质量?看完你就知道了!
在中国大部分企业客观的讲,基本没有意识到数据质量的重要性,更没有专门的数据质量测试计划、团队、投入等。
苦叶子
2019/05/30
2.5K0
数据质量管理的一些思考
在近期的项目当中,我们为客户落地实施了数据资产平台。随后,在数据平台中接入了客户子公司的一个业务系统的明细数据。客户希望在我们的数据平台上通过数据探索和数据分析,来挖掘一些业务价值和业务创新点。
ThoughtWorks
2018/07/23
2.2K0
数据质量问题是“技术”问题还是“业务”问题?
是不是感觉漫画中的场景很熟悉?没错,这种场景几乎每天都在企业中重复上演。 一、数据质量问题的危害 当前越来越多的企业认识到了数据的重要性,数据仓库、大数据平台的建设如雨后春笋。但数据是一把双刃剑,它能
yuanyi928
2018/03/30
2.2K0
数据质量问题是“技术”问题还是“业务”问题?
中国产品质量法
在生活、工作中,软件测试从业人员,大多也很少去关注产品质量法,对于如何在企业实践中,将测试工作上升至质量管理,也会缺乏各种指导思想,或是缺乏本质的理解。
苦叶子
2019/05/13
5690
中国产品质量法
数据仓库之数据质量建设(深度好文)
数仓建设真正的难点不在于数仓设计,而在于后续业务发展起来,业务线变的庞大之后的数据治理,而数据治理的范围非常广,包含数据本⾝的管理、数据安全、数据质量、数据成本等。在这么多治理内容中,大家想下最重要的治理是什么?当然是数据质量治理,因为数据质量是数据分析结论有效性和准确性的基础,也是这一切的前提。所以如何保障数据质量,确保数据可用性是数据仓库建设中不容忽视的环节。
五分钟学大数据
2021/10/13
2.2K0
数据仓库之数据质量建设(深度好文)
数据治理系列:一个数据质量监控系统的自我修养
随着大数据时代的到来,伴随着是“海纳百川、有容乃大”种类繁多的海量数据爆炸式增长;有“天下武功,为快不破”惊人的数据处理速度;可挖掘“运筹帷幄胜千里之外”支持决策的数据价值。同时,信息社会不断向纵深发展,数据和信息作为战略性资源的价值正在快速提升。当前,数据的战略价值已得到广泛重视,数据治理能力也成为了衡量一个企业、行业、乃至一个地区的经济社会发展水平的重要指标。
用户7600169
2022/04/25
4.1K0
数据治理系列:一个数据质量监控系统的自我修养
数据治理(三):数据质量管理
在大数据早期,做数据治理最主要的目的,就是为了提升数据质量,让报表、分析、应用更加准确。到今天,虽然数据治理的范畴扩大了很多,我们开始讲数据资产管理、知识图谱、自动化的数据治理等等概念,但是提升数据的质量,依然是数据治理最重要的目标之一。因为数据要能发挥其价值,关键在于其数据的质量的高低,高质量的数据是一切数据应用的基础。在数据质量不高的环境下,做数据分析可谓问题重重,数据质量问题已经严重影响了组织业务的正常运营。通过科学的数据质量管理,持续地提升数据质量,已经成为组织内刻不容缓的优先任务。
Lansonli
2022/04/08
8840
数据治理(三):数据质量管理
关于数据质量,必须要懂的 6 点!(好好看看)
按照国际数据管理协会的《数据管理知识手册》中规定,数据质量(DQ)是“既指与数据有关的特征,也指用于衡量或改进数据质量的过程。”但要深入理解数据质量,需要切分不同层次或维度。
公众号:大数据羊说
2022/05/17
6.4K0
关于数据质量,必须要懂的 6 点!(好好看看)
如何测试我们的数据质量?
客观的讲,当下有能力、有意愿去构建数据质量测试的企业少之又少,甚至绝大部分企业并未意识到数据质量需要测试。
苦叶子
2020/09/16
1.2K0
如何测试我们的数据质量?
【rainbowzhou 面试19/101】技术提问--如何进行数据质量提升?
在进行数据质量提升前,首先需要探究数据质量问题产生的原因。一般数据质量问题的原因与数据标准的三方面组成是一致的,即管理层面、业务层面、技术层面。
rainbowzhouj
2023/03/16
5410
【rainbowzhou 面试19/101】技术提问--如何进行数据质量提升?
刘晨:大数据怎能没有你--数据治理
主讲嘉宾:刘晨 主持人:中关村大数据产业联盟 副秘书长 陈新河 承办:中关村大数据产业联盟 嘉宾介绍: 刘晨:广州利为软件合伙人,从事数据治理软件产品研发与咨询服务。清华大学电子系本科、经管学院MBA。拥有数据治理领域六年以上从业经验。国际数据管理协会中国分会(DAMA China)核心工作组成员,国际信息和数据质量协会(IAIDQ)会员。译著有《DAMA数据管理知识体系指南》,编写《大型企业信息化工程项目管理实战》数据管理章节。 以下为分享实景全文: 主题汇报人: 刘晨:大家好,我是刘晨,来自于利为软件
大数据文摘
2018/05/21
15.4K0
软件质量浅谈
一提起软件质量管理,人们的第一反应就会想起CMMI和ISO 9001。然而经过多年的探索,这些曾经被奉为软件质量管理的圣经并未普渡众生,其对提高软件的品质似乎没有奏效,现实和理想差距很远。 本文不对CMM和ISO 9001做过多的评论。只是个人对如何提高项目软件品质谈谈自己浅薄的认识,起到抛砖引玉之效。 企业的根本目的是获取最大利润。因此一切企业活动都围绕这个目的展开。谈项目软件品质也不能离开这个商业目标,而单纯设想如何构造一个完美品质的项目。 品质管理的现状分析: 1、企业的资源
张树臣
2018/05/15
1.6K0
谷歌AI研究院:被低估的数据!被高估的模型...
得益于算法、算力和数据这三驾马车,人工智能在2006年后获得了巨大的发展。近日,来自谷歌的研究员在一篇题为“Everyone wants to do the model work, not the data work”的论文中指出:数据质量在AI中起到的作用正在被低估,数据质量在高风险AI应用中十分重要,尤其是对癌症检测、野生生物偷猎等下游任务中巨大。
Amusi
2021/05/10
4280
谷歌AI研究院:被低估的数据!被高估的模型...
企业供应商系统管理:随时掌握产品信息数据质量
供应商B2B系统当中涉及的数据是相当庞大的,以致于供应商采购平台系统公司无法将产品的生产数据完全作为企业内部数据来使用,甚至有些数据业务是外包给第三方平台去处理,其中返回的数据成品信息出现问题都没法及时去发现、处理。
数商云市场营销总监
2021/05/12
4920
相关推荐
“数据质量”入门
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档