什么是数据治理,数据治理包含哪些方面?大数据时代的到来,给了我们很多的机遇,也有很多的挑战。最基础的调整也是大数据的计算和管理,数据治理是一个特别重要的大数据基础,他保证着数据能否被最好的应用,保证着数据的安全,治理等。那么数据治理到底能治什么,怎么治?
数据治理主要包含七个方面。
即数据本身的管理,对于数据本身,基于数据仓库,我们做了数据的分层、数据域的划分、基于维度建模的架构、命名规范、对需要共享的数据建立统一视图和集中管理等,这些都是属于这个主数据管理的范围。
元数据,即数据的数据。包含两个个方面,技术元数据、业务元数据。用于打通了源数据、数据仓库、数据应用,记录了数据从产生到消费的全过程。元数据主要记录数据仓库中模型的定义、各层级间的映射关系、监控数据仓库的数据状态及 ETL 的任务运行状态。
在数据仓库系统中,元数据可以帮助数据仓库管理员和开发人员非常方便地找到他们所关心的数据,用于指导其进行数据管理和开发工作,提高工作效率。
技术元数据是存储关于数据仓库系统技术细节的数据,是用于开发和管理数据仓库使用的数据。
业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够懂”数据仓库中的数据。
数据标准建设提供全面完整的数据标准管理流程及办法,用于决定和建立单一、准确、权威的事实来源,实现大数据平台数据的完整性、有效性、一致性、规范性、开放性和共享性管理,并为数据质量检查、数据安全管理提供标准依据。比如,“客户类型”是一个数据项,应该有统一的业务含义,将客户归类为大客户、一般客户的规则是什么,数据项的取值是几位长度,有哪些有效值(如01,02,03)等。这方面有国际标准可以参考,如ISO11179,国内很多行业也制定了行业数据标准,如电子政务数据元、金融行业统计数据元等等。共同的问题是,标准定义出来之后,执行的情况怎么样?是否真正落实到IT系统了,谁为数据的管理者等。
这里主要包含三个方面,技术定义、业务定义以及数据管理定义。
数据质量管理,包含五个部分,数据的唯一性、完整性、准确性、一致性、有效性。数据质量管理,就是通过特定的规则对数据的五个方面进行测试,检查,监控和告警。
数据安全管理贯穿于数据治理全过程,提供对隐私数据的加密、脱敏、模糊化处理、数据库授权监控等多种数据安全管理措施,全方位保障数据的安全运作。
对大数据集群每天存储资源、计算资源消耗等进行管理、监控、优化。如何降低计算资源的消耗,提高任务执行的性能,提升任务产出的时间。一般从系统优化和任务优化两个方面进行计算优化。
在大数据时代,对于数据爆炸式的增长,存储管理也将面临着一系列挑战。如何有效地降低存储资源的消耗,节省存储成本,也是数据治理的一个目标。对于数据存储,目前业界的一些主要的处理方式,包括数据压缩、数据重分布、数据垃圾检测和清理、数据生命周期管理等。
需要数据仓库资料可以点击这个领取数据仓库(13)大数据数仓经典最值得阅读书籍推荐
参考文章:[数据仓库(11)什么是大数据治理,数据治理的范围是哪些
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。