元数据(Metadata),通常的定义为"描述数据的数据"。元数据打通了源数据、数据仓库、数据应用,记录了数据从产生到消费的全过程。元数据管理是数据治理的核心。
数据的真正价值在于数据驱动决策,通过数据指导运营。通过数据驱动的方法判断趋势,帮住我们发现问题,继而推动创新或产生新的解决方案。随着企业数据爆发式增长,数据体量越来越难以估量,我们很难说清楚我们到底拥有哪些数据,这些数据从哪里来,到哪里去,发生了什么变化,应该如何使用它们。因此数据治理中的元数据管理成为企业级不可或缺的重要组成部分。元数据治理可以提供数据源管理、分析数据血缘关系、分析数据影响等,实现对复杂的数据环境监控管理,为企业提供安全可信的数据,为数据仓库的运行与维护提供有效支撑。
简单来说,数据是公司中非常有价值的资产,这些数据包含各种数据源,各种业务,各种处理层次,对于这些资产需要有序、高效、统一的管理,这就需要一个元数据管理系统,元数据管理是数据治理中非常重要的一个核心,元数据的一致性、可追溯性是实现数据治理非常重要的一个环节。
在大数据时代,目前最成熟的与Hadoop体系兼容比较好的元数据治理平台就是Apache Atlas。为寻求数据治理的开源解决方案,2015年,Hortonworks公司联合其他厂商与用户于发起数据治理倡议,然后,包含数据分类(资产目录及数据字典)、集中策略引擎、数据血缘、安全和生命周期管理功能的Atlas应运而生。
Apache Atlas是一个可伸缩和可扩展的核心基础治理服务集合,使企业能够有效地和高效地满足 Hadoop 中的合规性要求,并允许与整个企业数据生态系统的集成。为组织提供开放式元数据管理和治理功能,用以构建其数据资产目录,对这些资产进行分类和管理,并为数据科学家,数据分析师和数据治理团队提供围绕这些数据资产的协作功能。
Atlas官网地址:Apache Atlas – Data Governance and Metadata framework for Hadoop
关于Atlas的架构原理,我们只需要了解由哪些部分组成即可,Atlas的架构核心组件如下: