前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Iceberg表格式

Iceberg表格式

原创
作者头像
Yiwenwu
修改于 2025-03-14 02:18:14
修改于 2025-03-14 02:18:14
1960
举报

背景介绍

Iceberg是介于上层计算引擎与底层存储格式之间的中间层定义为一种"数据组织格式"并称为表格式,它并不定义数据存储方式,而是定义了数据、元数据的组织方式,向上提供统一的“表”的语义。

Iceberg带来一些传统数仓的特性,包括ACID的语义,MVCC的能力,行级数据修改的能力,这些是原先Hive表所不具备的,因此Iceberg赋予了用户在数据湖上建仓的能力

Iceberg通过表目录进行组织,表目录分为data目录metadata目录,其中data目录存放的是表的数据,metadata目录存放的是表的元数据。所有的数据和元数据都是存放在HDFS上的。在Catalog(例如Hive metastore)中会存放元数据的最新版本,作为refer指向存放在HDFS上真正的metadata目录。Iceberg查询时,先访问Iceberg Catalog获取目标表对应的元数据指针,基于元数据指针找到对应的数据文件读取。

代码语言:txt
AI代码解释
复制
/metadata
    xxxx.metadata.json --Metadata file
    snap-xxxx.avro  --Manifest list
    xxxx.avro  --Manifest File
/data
    xxxx.parquet --Data file
表目录结构=元数据层+数据层
表目录结构=元数据层+数据层

Iceberg具备了很多额外的特性,包括时间旅行(Time Travel)回溯数据的历史版本,行级数据修改(Update,Delete),Schema Evolution(Table Partition/Column更新),索引优化,Zordering重排序优化等等。Iceberg表是Hive表的一个超集。Hive基于文件夹级别追踪数据,Iceberg支持基于文件级别追踪数据。

Iceberg构成

Catalog

Iceberg Catalog 是Iceberg的顶层组件,负责管理所有 Iceberg表的元数据和元数据操作,为计算引擎提供统一的接口访问和操作Iceberg表的元数据。Iceberg提供以下能力:

  • 维护Iceberg表的最新元数据指针
  • 支持原子性操作,确保在更新元数据指针的正确性

Iceberg内部支持Hive和Hadoop两种catalog:

Catalog类型

Metadata JSON管理

Namespace

Hive catalog

Hive MetaStore

1级,即DB

Hadoop catalog

文件系统上的某个文件

多级,对应多级目录

Spark需在系统配置文件spark-defaults.conf添加如下配置,使Iceberg能够访问Hive MetaStore:

代码语言:properties
AI代码解释
复制
spark.hadoop.hive.metastore.uris           thrift://<HiveMetaStore>:9083
spark.hadoop.hive.metastore.warehouse.dir  hdfs://<NameNode>:8020/path

元数据层

负责管理表的关键元信息,确保提供高效的数据读取与操作。元数据主要包括三个部分:元数据文件(Metadata file)、清单列表)(Manifest list)和清单文件(Manifest file)。

文件结构示例
文件结构示例

Metadata file:元数据文件

维护特定时间点下,Iceberg表的基本元数据信息:

  • 表结构&表属性:表字段名称、类型,表归属用户,更新时间等
  • 分区信息:表的分区字段
  • 快照(Snapshots)列表:快照记录表在不同时间点的状态,维护相应的数据文件(data files)列表,一个清单列表(Manifest list) 文件代表一个快照
  • 最新快照引用:标识当前表的最新状态
  • 文件操作概要:变更操作,变更数据量,变更文件数等

Manifest list:清单列表

清单列表是维护多个清单文件(Manifest File)的列表,一个清单列表对应一个快照,记录快照的详细信息,包括:清单文件位置,快照ID,分区信息,列范围(数据文件的上下限)。

Manifest File:清单文件

管理数据文件的核心,跟踪数据文件(data file)以及每个文件的其他详细信息和统计信息,实现文件级别的数据跟踪。每个Manifest File 会跟踪数据文件的子集,以实现并行性和提升重用效率。文件详情主要包括:文件路径、数据格式类型、文件记录数和列范围。

数据层

数据层是实际存储数据的地方,由数据文件(data files)构成,表示真实存储的数据文件。Iceberg支持不同数据文件格式,包括:parquet, avro, orc,默认为parquet格式,文件是以“.parquet”结尾。Iceberg会按照分区策略进行数据文件组织,以便优化数据访问;Iceberg更新时会产生大量小数据文件

附录

Apache Iceberg: An Architectural Look Under the Covers

Apache Iceberg Architecture-Iceberg 架构详解

Apache Iceberg快速入门

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
首个转型AI公司的新势力,在全球AI顶会展示下一代自动驾驶模型
上周三,全球首款 L3 级算力「AI 汽车」小鹏 G7 正式亮相,其首发搭载的三颗自研图灵 AI 芯片,超过 2200TOPS 有效算力,本地部署的 VLA+VLM 模型等特性引发了关注。
机器之心
2025/06/19
890
首个转型AI公司的新势力,在全球AI顶会展示下一代自动驾驶模型
奥特曼惊世预言:下一代人类注定被AI碾压!人类工资暴跌,难以生存
有人说,CS专业算是「搬起石头砸自己的脚」,不过「覆巢之下,安有完卵」?AGI也「不会放过」其他专业的毕业生。
新智元
2025/02/04
960
奥特曼惊世预言:下一代人类注定被AI碾压!人类工资暴跌,难以生存
UC伯克利教授惊人预测:2030年GPT可执行人类180万年工作,一天学2500年知识
UC伯克利的一位机器学习教授Jacob Steinhardt发表长文,对2030年的GPT(以下简称为GPT 2030)作了预测。
新智元
2023/09/09
2560
UC伯克利教授惊人预测:2030年GPT可执行人类180万年工作,一天学2500年知识
奥特曼老黄齐预测:AGI五年内降临,代替95%工作!但马斯克断言AGI将被电力卡脖子
Claude 3、Sora、Gemini 1.5 Pro的纷纷出现,以及或许今年内就会被放出的GPT-5,让所有人都不约而同地隐隐感觉:我们似乎离AGI似乎越来越近了。
新智元
2024/03/13
2010
奥特曼老黄齐预测:AGI五年内降临,代替95%工作!但马斯克断言AGI将被电力卡脖子
OpenAI前员工预测:2027年AGI降临!GPT智商飙升,4年从幼儿园蹿到高中生
几天前,Anthropic一名25岁的高管在博客上发文,表示自己已经准备好了3年后退休,让AI取代自己的工作。
新智元
2024/06/17
2720
OpenAI前员工预测:2027年AGI降临!GPT智商飙升,4年从幼儿园蹿到高中生
谷歌工程师硬核长篇预测,证实黄仁勋观点:AGI或在2029年出现,AI五年内通过人类测试
在斯坦福大学举行的一个经济论坛上,黄仁勋回答了这个问题:人类何时能创造像人类一样思考的计算机?
新智元
2024/03/13
1820
谷歌工程师硬核长篇预测,证实黄仁勋观点:AGI或在2029年出现,AI五年内通过人类测试
麦肯锡预测2030年:1亿中国人面临职业转换,全球8亿人被机器人取代
作者:麦肯锡 纵观人类技术的发展历程,往往遵循一个固定的规律,即先是概念萌芽,然后经历市场炒作,资本蜂拥,结果潮水退去,泡沫破灭。而繁华落尽后,才会经历技术成熟的阶段,直到最后的落地应用,人工智能的发展也是顺应这个规律。如今AI技术正逐渐走出实验室,走进我们生活。未来AI会给我们带来哪些改变?谁都没有答案,正如《南风窗》写的那样:“今天怎么想象未来,都是幼稚的”。但我们应该相信一个尊重科技的社会一定能够向好而生,愿在未来,机器能成为人类的合伙人,而不是对手,更不是替代者。 近日,麦肯锡全球研究院(McKi
钱塘数据
2018/03/06
2.2K0
麦肯锡预测2030年:1亿中国人面临职业转换,全球8亿人被机器人取代
Bengio预言o1无法抵达AGI!Nature权威解读AI智能惊人进化,终极边界就在眼前
Nature最新一篇长文,从人类一直在思考的AGI问题入手,探究了o1掀起的新范式。
新智元
2025/02/15
750
Bengio预言o1无法抵达AGI!Nature权威解读AI智能惊人进化,终极边界就在眼前
AI大神狂喷Sora,力推世界模型,到底谁才是实现AGI的正解?
OpenAI基于Transformer架构开发出的ChatGPT以及近期的Sora大火,但是不少AI界权威人物却狂喷这一技术路线,力推世界模型。那么,Transformer与世界模型到底谁才代表未来,谁更有希望实现我们的终极梦想——AGI?
数据猿
2024/03/04
2210
AI大神狂喷Sora,力推世界模型,到底谁才是实现AGI的正解?
2028年人类将迎来AGI:DeepMind联合创始人长文预测未来AI发展
10月26日,在X上有三万订阅的Dwarkesh Podcast(矮人播客)主持人Dwarkesh Patel采访了谷歌DeepMind的创始人兼首席AGI科学家Shane Legg。
新智元
2023/11/13
3340
2028年人类将迎来AGI:DeepMind联合创始人长文预测未来AI发展
前OpenAI首席科学家Ilya: 只要能够预测下一个token,人类就能达到AGI
近日,Nature将前OpenAI首席科学家Ilya Sutskever评为「2023年10大科学人物」。
新智元
2023/12/20
2520
前OpenAI首席科学家Ilya: 只要能够预测下一个token,人类就能达到AGI
AGI前夜的思考:2025年将出现真正的AI智能体,年轻人需要快速适应
2025 新年将至。对于新的一年和未来几年,你对 AI 领域有什么期待和设想呢?你是否认为 AGI 将要实现了而人类社会的一切都将因之而改变。
机器之心
2025/02/15
1420
AGI前夜的思考:2025年将出现真正的AI智能体,年轻人需要快速适应
与OpenAI CEO萨姆·阿尔特曼对话:AGI将在10年后到来
现在让我介绍一下萨姆·阿尔特曼(Sam Altman)。萨姆是大家熟悉的连续创业者,他曾担任YC的总裁,现在是OpenAI的CEO,他还投资了包括Airbnb、Stripe等公司,甚至还参与了Heon这样的能源融合公司。他帮助建立了World Coin,一种新的加密协议,可以说他涉足过很多领域的投资。他可谓涉及众多领域,且都做得很好。欢迎萨姆!感谢他加入这一轮讨论。
AIGC部落
2024/09/30
1920
与OpenAI CEO萨姆·阿尔特曼对话:AGI将在10年后到来
末日时间表来了!前OpenAI研究员76页硬核推演:2027年ASI接管世界,人类成NPC
今天,前OpenAI研究员和同事们发出一篇「AI 2027」报告,长达76页,做出了种种硬核预测。
新智元
2025/04/05
1110
末日时间表来了!前OpenAI研究员76页硬核推演:2027年ASI接管世界,人类成NPC
思考总结10年,图灵奖得主Yann LeCun指明下一代AI方向:自主机器智能
选自arXiv 作者:Yann LeCun 机器之心编译 编辑:小舟、陈萍 在这篇长达 62 页的论文中,LeCun 表示,这篇论文提炼了他对过去 5 年 - 10 年关于 AI 发展大方向的思考,这基本上是他计划在接下来的 10 年中开展的工作,也是他希望激励其他人从事的工作。 随着机器学习的不断发展,领域内的研究者开始思考一个问题:我们离通用人工智能(AGI)还有多远? 要实现 AGI,最关键的一点是让机器了解世界是如何运转的,掌握广泛的现实知识。 这也是图灵奖得主 LeCun 近期在探索的问题。他曾
机器之心
2022/06/29
6350
思考总结10年,图灵奖得主Yann LeCun指明下一代AI方向:自主机器智能
马斯克最新预测:AI或在2030年超越人类智力,未来还可能“终结”人类
② 马斯克谈了制约AI发展的因素,去年是AI芯片供应紧张,今年降压变压器将成为瓶颈。
小腾资讯君
2024/04/07
2290
十年内出现AGI?下一代Gemini能感知环境?DeepMind CEO哈萨比斯畅谈AI
「如果我们在未来十年内拥有类似 AGI 的系统,我不会感到惊讶。」Google DeepMind 联合创始人和 CEO Demis Hassabis 近日在人工智能播客节目 Dwarkesh Podcast 上如是说。
机器之心
2024/03/07
1430
十年内出现AGI?下一代Gemini能感知环境?DeepMind CEO哈萨比斯畅谈AI
Yann LeCun最新万字演讲:致力于下一代AI系统,我们基本上不做LLM了
Yann LeCun 最新哈德逊论坛演讲:仅通过文本训练,LLM 永远不会达到接近人类水平的智能。所以现在 Meta 已经转向了更长期的下一代 AI 系统研究,基本不再专注于 LLM 了。
Datawhale
2024/10/21
2410
Yann LeCun最新万字演讲:致力于下一代AI系统,我们基本上不做LLM了
麦肯锡发布生成式AI报告,预测2030可达人类水平
2016年DeepMind搞出AlphaGo,击败世界冠军李世石的那会儿,AI曾经铺天盖地的进入到我们的视野中一次,但因为仅仅局限在围棋游戏,后来风头一过,就慢慢淡出了。
新智元
2023/10/20
3430
麦肯锡发布生成式AI报告,预测2030可达人类水平
AGI时代,财富大洗牌!Hinton分解未来财富流向,普通人何去何从
在《经济蓝图》中,OpenAI描绘了AI带给人类的未来:不久的将来,普通人的生活将比现在最「壕」的富豪,生活得更好。
新智元
2025/02/04
1280
AGI时代,财富大洗牌!Hinton分解未来财富流向,普通人何去何从
推荐阅读
首个转型AI公司的新势力,在全球AI顶会展示下一代自动驾驶模型
890
奥特曼惊世预言:下一代人类注定被AI碾压!人类工资暴跌,难以生存
960
UC伯克利教授惊人预测:2030年GPT可执行人类180万年工作,一天学2500年知识
2560
奥特曼老黄齐预测:AGI五年内降临,代替95%工作!但马斯克断言AGI将被电力卡脖子
2010
OpenAI前员工预测:2027年AGI降临!GPT智商飙升,4年从幼儿园蹿到高中生
2720
谷歌工程师硬核长篇预测,证实黄仁勋观点:AGI或在2029年出现,AI五年内通过人类测试
1820
麦肯锡预测2030年:1亿中国人面临职业转换,全球8亿人被机器人取代
2.2K0
Bengio预言o1无法抵达AGI!Nature权威解读AI智能惊人进化,终极边界就在眼前
750
AI大神狂喷Sora,力推世界模型,到底谁才是实现AGI的正解?
2210
2028年人类将迎来AGI:DeepMind联合创始人长文预测未来AI发展
3340
前OpenAI首席科学家Ilya: 只要能够预测下一个token,人类就能达到AGI
2520
AGI前夜的思考:2025年将出现真正的AI智能体,年轻人需要快速适应
1420
与OpenAI CEO萨姆·阿尔特曼对话:AGI将在10年后到来
1920
末日时间表来了!前OpenAI研究员76页硬核推演:2027年ASI接管世界,人类成NPC
1110
思考总结10年,图灵奖得主Yann LeCun指明下一代AI方向:自主机器智能
6350
马斯克最新预测:AI或在2030年超越人类智力,未来还可能“终结”人类
2290
十年内出现AGI?下一代Gemini能感知环境?DeepMind CEO哈萨比斯畅谈AI
1430
Yann LeCun最新万字演讲:致力于下一代AI系统,我们基本上不做LLM了
2410
麦肯锡发布生成式AI报告,预测2030可达人类水平
3430
AGI时代,财富大洗牌!Hinton分解未来财富流向,普通人何去何从
1280
相关推荐
首个转型AI公司的新势力,在全球AI顶会展示下一代自动驾驶模型
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档