开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

使用自定义格式的Apache Hudi分区

Apache Hudi是一个开源的数据湖解决方案，它提供了一种用于管理和处理大规模数据的方法。它支持使用自定义格式的分区，这使得数据的组织和查询更加灵活和高效。

自定义格式的Apache Hudi分区是指在使用Apache Hudi进行数据分区时，可以根据自己的需求定义分区的方式和规则。传统的数据分区通常是基于时间、地理位置或者其他固定的属性进行划分，而自定义格式的分区可以根据业务需求进行灵活的定义。

优势：

灵活性：自定义格式的分区可以根据业务需求进行灵活的定义，可以根据不同的属性进行分区，满足不同的查询需求。
查询性能：自定义格式的分区可以根据数据的特点进行优化，提高查询性能。例如，可以将热门数据放在更快的存储介质上，加快查询速度。
数据组织：自定义格式的分区可以根据业务需求进行数据组织，使得数据更加有序和易于管理。

应用场景：

日志分析：可以根据日志的时间、来源、类型等属性进行自定义格式的分区，方便进行日志的查询和分析。
数据仓库：可以根据不同的维度进行自定义格式的分区，提高数据仓库的查询性能和管理效率。
数据备份和恢复：可以根据数据的重要性和更新频率进行自定义格式的分区，方便进行数据备份和恢复。

推荐的腾讯云相关产品：腾讯云提供了一系列与数据湖和大数据处理相关的产品，以下是一些推荐的产品：

腾讯云数据湖解决方案：提供了完整的数据湖解决方案，包括数据存储、数据处理和数据分析等功能。详情请参考：腾讯云数据湖解决方案
腾讯云分布式数据仓库CDW：提供了高性能的分布式数据仓库服务，支持自定义格式的分区和灵活的数据查询。详情请参考：腾讯云分布式数据仓库CDW
腾讯云大数据计算服务TDSQL：提供了高性能的大数据计算服务，支持自定义格式的分区和复杂的数据处理。详情请参考：腾讯云大数据计算服务TDSQL

以上是关于使用自定义格式的Apache Hudi分区的完善且全面的答案。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

Hudi：Apache Hadoop上的增量处理框架

随着ApacheParquet和Apache ORC等存储格式以及Presto和Apache Impala等查询引擎的发展，Hadoop生态系统有潜力作为面向分钟级延时场景的通用统一服务层。然而，为了实现这一点，这需要在HDFS中实现高效且低延迟的数据摄取及数据准备。

01

Apache Hudi重磅RFC解读之存量表高效迁移机制

随着Apache Hudi变得越来越流行，一个挑战就是用户如何将存量的历史表迁移到Apache Hudi，Apache Hudi维护了记录级别的元数据以便提供upserts和增量拉取的核心能力。为利用Hudi的upsert和增量拉取能力，用户需要重写整个数据集让其成为Hudi表。此RFC提供一个无需重写整张表的高效迁移机制。

02

Apache Hudi和Presto的前世今生

一篇由Apache Hudi PMC Bhavani Sudha Saktheeswaran和AWS Presto团队工程师Brandon Scheller分享Apache Hudi和Presto集成的一篇文章。

02

基于 Apache Hudi 构建分析型数据湖

为了更好地发展业务，每个组织都在迅速采用分析。在分析过程的帮助下，产品团队正在接收来自用户的反馈，并能够以更快的速度交付新功能。通过分析提供的对用户的更深入了解，营销团队能够调整他们的活动以针对特定受众。只有当我们能够大规模提供分析时，这一切才有可能。

02

hudi中的写操作

在本节中，我们将介绍如何使用DeltaStreamer工具从外部数据源甚至其他Hudi表中获取新的更改，以及如何使用Hudi数据源通过upserts加速大型Spark作业。然后可以使用各种查询引擎查询这些表。

01

[离线计算-Spark|Hive] 数据近实时同步数仓方案设计

最近阅读了大量关于hudi相关文章, 下面结合对Hudi的调研, 设计一套技术方案用于支持 MySQL数据CDC同步至数仓中，避免繁琐的ETL流程，借助Hudi的upsert, delete 能力，来缩短数据的交付时间.

04

计算引擎之下，存储之上 - 数据湖初探

随着移动互联网，物联网技术的发展，数据的应用逐渐从 BI 报表可视化往机器学习、预测分析等方向发展，即 BI 到 AI 的转变。

04

「Hudi系列」Hudi查询&写入&常见问题汇总

2. 「Hudi系列」Apache Hudi入门指南 | SparkSQL+Hive+Presto集成

04

一文彻底掌握Apache Hudi的主键和分区配置

Hudi中的每个记录都由HoodieKey唯一标识，HoodieKey由记录键和记录所属的分区路径组成。基于此设计Hudi可以将更新和删除快速应用于指定记录。Hudi使用分区路径字段对数据集进行分区，并且分区内的记录有唯一的记录键。由于仅在分区内保证唯一性，因此在不同分区之间可能存在具有相同记录键的记录。应该明智地选择分区字段，因为它可能影响摄取和查询延迟。

03

详解Apache Hudi如何配置各种类型分区

Apache Hudi支持多种分区方式数据集，如多级分区、单分区、时间日期分区、无分区数据集等，用户可根据实际需求选择合适的分区方式，下面来详细了解Hudi如何配置何种类型分区。

02

查询hudi数据集

从概念上讲，Hudi物理存储一次数据到DFS上，同时在其上提供三个逻辑视图，如之前所述。数据集同步到Hive Metastore后，它将提供由Hudi的自定义输入格式支持的Hive外部表。一旦提供了适当的Hudi捆绑包，就可以通过Hive、Spark和Presto之类的常用查询引擎来查询数据集。

03

Apache Hudi | 统一批和近实时分析的增量处理框架

随着Apache Parquet和Apache ORC等存储格式以及Presto和Apache Impala等查询引擎的发展，Hadoop生态系统有潜力作为面向分钟级延时场景的通用统一服务层。然而，为了实现这一点，这需要在HDFS中实现高效且低延迟的数据摄取及数据准备。

04

ApacheHudi使用问题汇总（一）

通常，你会从源获取部分更新/插入，然后对Hudi数据集执行写入操作。如果从其他标准来源（如Kafka或tailf DFS）中提取数据，那么DeltaStreamer将会非常有用，其提供了一种简单的自我管理解决方案，可将数据写入Hudi。你还可以自己编写代码，使用Spark数据源API从自定义源获取数据，并使用Hudi数据源写入Hudi。

02

Apache Hudi数据备份与转储利器：HoodieSnapshotExporter

最近社区活跃贡献者：Raymond Xu & OpenOpened，给Hudi贡献了一个非常实用的工具：HoodieSnapshotExporter，该实用程序旨在促进导出（如备份复制和转换格式）Hudi数据集的任务。

04

实时方案之数据湖探究调研笔记

数据湖是目前比较热的一个概念，许多企业都在构建或者计划构建自己的数据湖。但是在计划构建数据湖之前，搞清楚什么是数据湖，明确一个数据湖项目的基本组成，进而设计数据湖的基本架构，对于数据湖的构建至关重要。关于什么是数据湖？有不同的定义。

03

基于AIGC写作尝试：深入理解 Apache Hudi

本文的目的是为读者提供全面了解Apache Hudi的知识。具体而言，读者可以了解到Apache Hudi是什么、它的架构如何工作、常见的使用案例以及与之配合工作的最佳实践。此外，读者还将获得有关如何设置和配置Apache Hudi，以及优化其性能的技巧的见解。通过阅读本文，读者应该对Apache Hudi有扎实的理解，并了解如何在其数据处理流程中利用它的优势。

02

Hudi 基础知识详解

Apache Hudi将核心仓库和数据库功能直接带到数据湖中。Hudi提供了表、事务、高效upserts/删除、高级索引、流式摄取服务、数据群集/压缩优化以及并发，同时保持数据以开源文件格式保留。

03

Hudi 基础知识详解

Apache Hudi将核心仓库和数据库功能直接带到数据湖中。Hudi提供了表、事务、高效upserts/删除、高级索引、流式摄取服务、数据群集/压缩优化以及并发，同时保持数据以开源文件格式保留。

02

Lakehouse 特性对比 | Apache Hudi vs Delta Lake vs Apache Iceberg

随着 Lakehouse 的日益普及，人们对分析和比较作为该数据架构核心的开源项目的兴趣日益浓厚：Apache Hudi、Delta Lake 和 Apache Iceberg。

02

基于 Apache Hudi 构建增量和无限回放事件流的 OLAP 平台

在本博客中，我们将讨论在构建流数据平台时如何利用 Hudi 的两个最令人难以置信的能力。

02

基于 Apache Hudi + Presto + AWS S3 构建开放Lakehouse

数据仓库被认为是对结构化数据执行分析的标准，但它不能处理非结构化数据。包括诸如文本、图像、音频、视频和其他格式的信息。此外机器学习和人工智能在业务的各个方面变得越来越普遍，它们需要访问数据仓库之外的大量信息。

02

apache hudi 0.13.0版本重磅发布

Apache Hudi 0.13.0引入了一系列新特性，包括Metaserver, Change Data Capture, new Record Merge API, new sources for Deltastreamer等。虽然此版本不需要表版本升级，但希望用户在使用 0.13.0 版本之前按照下面的迁移指南采取相关重大更改和行为更改的操作。

01

Apache Hudi 0.15.0 版本发布

此版本保留与 0.14.0 版本相同的表版本 (6)，如果从 0.14.0 升级，则无需升级表版本。有一些模块和 API 更改以及行为更改，如下所述，用户在使用 0.15.0 版本之前应采取相应的操作。

01

Halodoc使用Apache Hudi构建Lakehouse的关键经验

Halodoc 数据工程已经从传统的数据平台 1.0 发展到使用 LakeHouse 架构的现代数据平台 2.0 的改造。在我们之前的博客中，我们提到了我们如何在 Halodoc 实施 Lakehouse 架构来服务于大规模的分析工作负载。我们提到了平台 2.0 构建过程中的设计注意事项、最佳实践和学习。本博客中我们将详细介绍 Apache Hudi 以及它如何帮助我们构建事务数据湖。我们还将重点介绍在构建Lakehouse时面临的一些挑战，以及我们如何使用 Apache Hudi 克服这些挑战。

04

如何将数据更快导入Apache Hudi？

Apache Hudi除了支持insert和upsert外，还支持bulk_insert操作将数据摄入Hudi表，对于bulk_insert操作有不同的使用模式，本篇博客将阐述bulk_insert不同的模式以及与其他操作的比较。

03

AWS的湖仓一体使用哪种数据湖格式进行衔接？

此前Apache Hudi社区一直有小伙伴询问能否使用Amazon Redshift（数仓）查询Hudi表，现在它终于来了。

05

Apache Hudi 架构设计和基本概念

Apache Hudi是一个Data Lakes的开源方案，Hudi是Hadoop Updates and Incrementals的简写，它是由Uber开发并开源的Data Lakes解决方案。Hudi具有如下基本特性/能力：

02

基于 Apache Hudi + dbt 构建开放的Lakehouse

本博客的重点展示如何利用增量数据处理和执行字段级更新来构建一个开放式 Lakehouse。我们很高兴地宣布，用户现在可以使用 Apache Hudi + dbt 来构建开放Lakehouse。

01

Apache四个大型开源数据和数据湖系统

管理大数据所需的许多功能是其中一些是事务，数据突变，数据校正，流媒体支持，架构演进，因为酸性事务能力Apache提供了四种，用于满足和管理大数据。

02

Spark读取变更Hudi数据集Schema实现分析

Hudi支持上层Hive/Presto/Spark查询引擎，其中使用Spark读取Hudi数据集方法非常简单，在spark-shell或应用代码中，通过 spark.sqlContext.read.format("org.apache.hudi").load便可加载Hudi数据集，本篇文章分析具体的实现。

02

KLOOK客路旅行基于Apache Hudi的数据湖实践

客路旅行（KLOOK）是一家专注于境外目的地旅游资源整合的在线旅行平台，提供景点门票、一日游、特色体验、当地交通与美食预订服务。覆盖全球100个国家及地区，支持12种语言和41种货币的支付系统,与超过10000家商户合作伙伴紧密合作，为全球旅行者提供10万多种旅行体验预订服务。KLOOK数仓RDS数据同步是一个很典型的互联网电商公司数仓接入层的需求。对于公司数仓，约60%以上的数据直接来源与业务数据库，数据库有很大一部分为托管的AWS RDS-MYSQL 数据库，有超100+数据库/实例。RDS直接通过来的数据通过标准化清洗即作为数仓的ODS层，公司之前使用第三方商业工具进行同步，限制为每隔8小时的数据同步，无法满足公司业务对数据时效性的要求，数据团队在进行调研及一系列poc验证后，最后我们选择Debezium+Kafka+Flink+Hudi的ods层pipeline方案，数据秒级入湖，后续数仓可基于近实时的ODS层做更多的业务场景需求。

05

基于Apache Hudi 的CDC数据入湖

首先我们介绍什么是CDC？CDC的全称是Change data Capture，即变更数据捕获，它是数据库领域非常常见的技术，主要用于捕获数据库的一些变更，然后可以把变更数据发送到下游。它的应用比较广，可以做一些数据同步、数据分发和数据采集，还可以做ETL，今天主要分享的也是把DB数据通过CDC的方式ETL到数据湖。

03

提升50%+！Presto如何提升Hudi表查询性能？

分享一篇关于使用Hudi Clustering来优化Presto查询性能的talk

02

基于Apache Hudi 的CDC数据入湖

首先我们介绍什么是CDC？CDC的全称是Change data Capture，即变更数据捕获，它是数据库领域非常常见的技术，主要用于捕获数据库的一些变更，然后可以把变更数据发送到下游。它的应用比较广，可以做一些数据同步、数据分发和数据采集，还可以做ETL，今天主要分享的也是把DB数据通过CDC的方式ETL到数据湖。

01

Uber基于Apache Hudi构建PB级数据湖实践

从确保准确预计到达时间到预测最佳交通路线，在Uber平台上提供安全、无缝的运输和交付体验需要可靠、高性能的大规模数据存储和分析。2016年，Uber开发了增量处理框架Apache Hudi，以低延迟和高效率为关键业务数据管道赋能。一年后，我们开源了该解决方案，以使得其他有需要的组织也可以利用Hudi的优势。接着在2019年，我们履行承诺，进一步将其捐赠给了Apache Software Foundation，差不多一年半之后，Apache Hudi毕业成为Apache Software Foundation顶级项目。为纪念这一里程碑，我们想分享Apache Hudi的构建、发布、优化和毕业之旅，以使更大的大数据社区受益。

02

hudi 键的生成（Key Generation）

Hudi中的每条记录都由一个主键唯一标识，主键是用于记录所属的记录键和分区路径的参数。使用主键，Hudi可以强制a)分区级唯一性完整性约束b)允许快速更新和删除记录。应该明智地选择分区模式，因为它可能是摄入和查询延迟的决定因素。

04

Robinhood基于Apache Hudi的下一代数据湖实践

Robinhood 的使命是使所有人的金融民主化。Robinhood 内部不同级别的持续数据分析和数据驱动决策是实现这一使命的基础。我们有各种数据源——OLTP 数据库、事件流和各种第 3 方数据源。需要快速、可靠、安全和以隐私为中心的数据湖摄取服务来支持各种报告、关键业务管道和仪表板。不仅在数据存储规模和查询方面，也在我们在数据湖支持的用例方面，我们从最初的数据湖版本[1]都取得了很大的进展。在这篇博客中，我们将描述如何使用各种开源工具构建基于变更数据捕获的增量摄取，以将我们核心数据集的数据新鲜延迟从 1 天减少到 15 分钟以下。我们还将描述大批量摄取模型中的局限性，以及在大规模操作增量摄取管道时学到的经验教训。

02

hudi的索引机制以及使用场景

Apache Hudi 使用索引来定位更新/删除所属的文件组。对于 Copy-On-Write 表，通过避免需要连接整个数据集来确定要重写哪些文件，这可以实现快速的 upsert/delete 操作。对于 Merge-On-Read 表，这种设计允许 Hudi 限制任何给定基本文件需要合并的记录数量。具体来说，给定的基本文件只需要针对属于该基本文件一部分的记录的更新进行合并。相比之下，没有索引组件的设计（例如：Apache Hive ACID）可能最终必须根据所有传入的更新/删除记录合并所有基本文件。

02

Apache Hudi在医疗大数据中的应用

本篇文章主要介绍Apache Hudi在医疗大数据中的应用，主要分为５个部分进行介绍：1. 建设背景，2. 为什么选择Hudi，3. Hudi数据同步，4. 存储类型选择及查询优化，5. 未来发展与思考。

03

Apache Hudi在腾讯的落地与应用

Apache Hudi是一个基于数据库内核的流式数据湖平台，支持流式工作负载，事务，并发控制，Schema演进与约束；同时支持Spark/Presto/Trino/HIve等生态对接，在数据库内核侧支持可插拔索引的更新，删除，同时会自动管理文件大小，数据Clustering，Compaction，Cleanning等

03

Hudi Clustering特性

Apache Hudi为大数据带来了流处理，在提供新鲜数据的同时，比传统批处理效率高一个数量级。在数据湖/数据仓库中，关键的权衡之一是输入速度和查询性能之间的权衡。数据摄取通常倾向于小文件，以提高并行性，并使数据能够尽快用于查询。但是，如果有很多小文件，查询性能就会下降。此外，在摄入期间，数据通常根据到达时间在同一位置。但是，当频繁查询的数据放在一起时，查询引擎的性能会更好。在大多数体系结构中，每个系统都倾向于独立地添加优化，以提高由于未优化的数据布局而导致的性能限制。本博客介绍了一种新的表服务，称为clustering[RFC-19]，用于重新组织数据，在不影响输入速度的情况下提高查询性能。

02

数据湖在快手的生产实践

快手的传统离线链路和很多公司是一致的，基于 Hive做离线分层数仓的建设。在入仓环节和层与层之间是基于 Spark 或者 Hive做清洗加工和计算。这个链路有以下四个痛点：

04

2024 年 4 月 Apache Hudi 社区新闻

https://github.com/apache/hudi/pull/10949

01

[离线计算-Spark|Hive] HDFS小文件处理

HDFS 小文件过多会对hadoop 扩展性以及稳定性造成影响, 因为要在namenode 上存储维护大量元信息.

02

写入 Hudi 数据集

这一节我们将介绍使用DeltaStreamer工具从外部源甚至其他Hudi数据集摄取新更改的方法，以及通过使用Hudi数据源的upserts加快大型Spark作业的方法。对于此类数据集，我们可以使用各种查询引擎查询它们。

04

干货！Apache Hudi如何智能处理小文件问题

Apache Hudi是一个流行的开源的数据湖框架，Hudi提供的一个非常重要的特性是自动管理文件大小，而不用用户干预。大量的小文件将会导致很差的查询分析性能，因为查询引擎执行查询时需要进行太多次文件的打开/读取/关闭。在流式场景中不断摄取数据，如果不进行处理，会产生很多小文件。

02

17张图带你彻底理解Hudi Upsert原理

如果要深入了解Apache Hudi技术的应用或是性能调优，那么明白源码中的原理对我们会有很大的帮助。Upsert是Apache Hudi的核心功能之一，主要完成增量数据在HDFS/对象存储上的修改，并可以支持事务。而在Hive中修改数据需要重新分区或重新整个表，但是对于Hudi而言，更新可以是文件级别的重写或是数据先进行追加后续再重写，对比Hive大大提高了更新性能。upsert支持两种模式的写入Copy On Write和Merge On Read ，下面本文将介绍Apache Hudi 在Spark中Upsert的内核原理。

06

Apache Hudi 0.6.0版本重磅发布

hddong, xushiyan, wangxianghu, shenh062326, prashantwason, bvaradar, vinothchandar, baobaoyeye, andreitaleanu, clocklear , linshan-ma, satishkotha, Trevor-zhang, pratyakshsharma, GuoPhilipse, nsivabalan, zhedoubushishi, umehrot2, lw309637554, DeyinZhong, zherenyu831, lamber-ken, garyli1019, bhasudha, n3nash, yihua, liujinhui1994, sreeram26, Yungthuis, cheshta2904, leesf

02

超级重磅！Apache Hudi多模索引对查询优化高达30倍

与许多其他事务数据系统一样，索引一直是 Apache Hudi 不可或缺的一部分，并且与普通表格式抽象不同。在这篇博客中，我们讨论了我们如何重新构想索引并在 Apache Hudi 0.11.0 版本中构建新的多模式索引，这是用于 Lakehouse 架构的首创高性能索引子系统，以优化查询和写入事务，尤其是对于大宽表而言。

02

基于Apache Hudi和Debezium构建CDC入湖管道

当想要对来自事务数据库（如 Postgres 或 MySQL）的数据执行分析时，通常需要通过称为更改数据捕获[4] CDC的过程将此数据引入数据仓库或数据湖等 OLAP 系统。Debezium 是一种流行的工具，它使 CDC 变得简单，其提供了一种通过读取更改日志[5]来捕获数据库中行级更改的方法，通过这种方式 Debezium 可以避免增加数据库上的 CPU 负载，并确保捕获包括删除在内的所有变更。现在 Apache Hudi[6] 提供了 Debezium 源连接器，CDC 引入数据湖比以往任何时候都更容易，因为它具有一些独特的差异化功能[7]。Hudi 可在数据湖上实现高效的更新、合并和删除事务。Hudi 独特地提供了 Merge-On-Read[8] 写入器，与使用 Spark 或 Flink 的典型数据湖写入器相比，该写入器可以显着降低摄取延迟[9]。最后，Apache Hudi 提供增量查询[10]，因此在从数据库中捕获更改后可以在所有后续 ETL 管道中以增量方式处理这些更改下游。

02

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭