个人拙见:湖的概念提出时,不单单是Hudi这样,主要还是围绕着,湖中多数据孤岛互通的概念,当然基于Snowflake 这种云原生数仓的成熟,Trino 和 Flink 联合引擎和流引擎的成熟,数据湖被这个时代赋予了更广泛的意义。相比 hadoop 时代,ETL => ELT 所契合的:机器成本的降低,用于简化人力成本,也是一些现代化数仓的特征。我在大数据领域年限尚短,在近三年里数据湖的概念才逐渐磨合出来,原来都是一个人一个说法。数据湖的定义是很混杂的,如文中所提云产商将其云存储定义为数据湖,解决数据孤岛问题;而狭义数据湖特指Hudi、Iceberg等产品,是基于云存储之上构建的抽现层,解决实时更新等问题。本文仅介绍了在狭义数据湖的工作,广义数据湖方面未来会另行介绍。
领取专属 10元无门槛券
私享最新 技术干货