首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

初识数据湖-科普

什么是数据湖?

一种支持任意数据格式、并保留原始数据内容的 大规模存储系统架构,并且其支持海量数据的分析处理。

大规模存储系统架构

支持任意数据格式的输入,并做到集中存储

能够保留海量的原始数据

支持海量数据分析处理

数据湖的命名(Data Lake)是比较贴合其实际意义的。

数据湖应该做到:

集中存储

支持任意数据格式输入等

这样需求就像是:无论大小河流(任意格式)均可将水汇入湖泊中(集中存储)。

我们可以认为数据湖就是一个巨大的数据集合,汇聚了来自各个系统的任意格式的原始数据,并且能够对湖泊进行利用分析,进行水的流出(分析、利用的结果)。

数据湖/数据集市/数仓区别

数据湖:

是整个公司内的一个开放的数据中心,接收任意类型的数据输入,对数据进行集中存储,并能对这些数据提供分析服务。

数据仓库:

是整个公司的业务数据集合,主要针对结构化的数据,并能提供查询分析服务。

数据集市:

是一个小型的部门级别或者工作组级别的数仓。其内部数据主要针对指定业务范围,或者为指定人员提供服务。

数据写入模式

写时模式

数据在写入之前,就需要定义好数据的,数据按照的定义写入

读时模式

数据在写入的时候,不需要定义,在需要使用的时候在使用定义它

数据湖就是一种读时模式思想的具体体现

相比较写时模式而言,读时模式因为是数据在使用到的时候再定义模型结构(),因此能够提高数据模型定义的灵活性,可以满足不同上层业务的高效率分析需求。

因为,对于写时模式而言,如果想要事后更改是有很高的成本的。

而读时模式可以在用的时候再定义就很灵活了,同一套数据可以用不同的来定义,来获取不同的效果。

------------END-----------

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20210210A01WSN00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券