什么是数据湖?
一种支持任意数据格式、并保留原始数据内容的 大规模存储系统架构,并且其支持海量数据的分析处理。
大规模存储系统架构
支持任意数据格式的输入,并做到集中存储
能够保留海量的原始数据
支持海量数据分析处理
数据湖的命名(Data Lake)是比较贴合其实际意义的。
数据湖应该做到:
集中存储
支持任意数据格式输入等
这样需求就像是:无论大小河流(任意格式)均可将水汇入湖泊中(集中存储)。
我们可以认为数据湖就是一个巨大的数据集合,汇聚了来自各个系统的任意格式的原始数据,并且能够对湖泊进行利用分析,进行水的流出(分析、利用的结果)。
数据湖/数据集市/数仓区别
数据湖:
是整个公司内的一个开放的数据中心,接收任意类型的数据输入,对数据进行集中存储,并能对这些数据提供分析服务。
数据仓库:
是整个公司的业务数据集合,主要针对结构化的数据,并能提供查询分析服务。
数据集市:
是一个小型的部门级别或者工作组级别的数仓。其内部数据主要针对指定业务范围,或者为指定人员提供服务。
数据写入模式
写时模式
数据在写入之前,就需要定义好数据的,数据按照的定义写入
读时模式
数据在写入的时候,不需要定义,在需要使用的时候在使用定义它
数据湖就是一种读时模式思想的具体体现
相比较写时模式而言,读时模式因为是数据在使用到的时候再定义模型结构(),因此能够提高数据模型定义的灵活性,可以满足不同上层业务的高效率分析需求。
因为,对于写时模式而言,如果想要事后更改是有很高的成本的。
而读时模式可以在用的时候再定义就很灵活了,同一套数据可以用不同的来定义,来获取不同的效果。
------------END-----------
领取专属 10元无门槛券
私享最新 技术干货