第一部分 数据仓库理论
数据仓库(DataWarehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化的(Time Variant)数据集合,用于支持管理决策(Decision-Making Support)
* 面向主题的
* 集成的
* 稳定的
* 反映历史变化的
整合企业业务数据,建立统一的数据中心;
产生业务报表,了解企业的经营状况;
为企业运营、决策提供数据支持;
可以作为各个业务的数据源,形成业务数据互相反馈的良性循环;
分析用户行为数据,通过数据挖掘来降低投入成本,提高投入效果;
开发数据产品,直接或间接地为企业盈利;
数据库与数据仓库的区别实际讲的是 OLTP 与 OLAP 的区别。
OLTP(On-Line Transaction Processing 联机事务处理),也称面向交易的处理系
统。主要针对具体业务在数据库系统的日常操作,通常对少数记录进行查询、修
改。用户较为关心操作的响应时间、数据的安全性、完整性和并发支持的用户数等
问题。传统的数据库系统作为数据管理的主要手段,主要用于操作型处理。
OLAP(On-Line Analytical Processing 联机分析处理),一般针对某些主题的历史
数据进行分析,支持管理决策。
元数据(Metadata)是关于数据的数据。元数据打通了源数据、数据仓库、数据应
用,记录了数据从产生到消费的全过程。元数据就相当于所有数据的地图,有了这
张地图就能知道数据仓库中:
有哪些数据
数据的分布情况
数据类型
数据之间有什么关系
哪些数据经常被使用,哪些数据很少有人光顾
在大数据平台中,元数据贯穿大数据平台数据流动的全过程,主要包括数据源元数
据、数据加工处理过程元数据、数据主题库专题库元数据、服务层元数据、应用层
元数据等。