开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

将自定义动态分区程序从Flink 1.7迁移到Flink 1.9

自定义动态分区程序是指在Flink流处理框架中，根据特定的规则将数据流动态地分配到不同的分区中。在Flink 1.7版本中，自定义动态分区程序的实现方式与Flink 1.9版本有所不同。下面是将自定义动态分区程序从Flink 1.7迁移到Flink 1.9的步骤和注意事项：

首先，需要了解Flink 1.9版本中自定义动态分区的新特性和改进。可以参考Flink官方文档中关于Flink 1.9版本的更新说明，了解新版本中的改动和优化。
在Flink 1.7版本中，自定义动态分区程序通常是通过实现自定义的Partitioner接口来实现的。在Flink 1.9版本中，Partitioner接口已经被废弃，取而代之的是新的KeySelector和KeyGroupStreamPartitioner接口。
在迁移过程中，首先需要修改自定义动态分区程序的代码，将原来的Partitioner接口替换为KeySelector接口。KeySelector接口用于从输入数据中提取用于分区的键。根据业务需求，实现自定义的KeySelector接口，并重写其中的方法。
在Flink 1.9版本中，引入了KeyGroupStreamPartitioner接口，用于替代Partitioner接口。KeyGroupStreamPartitioner接口提供了更灵活的分区策略配置选项，可以根据具体的需求进行配置。在迁移过程中，需要将原来的分区策略逻辑转换为KeyGroupStreamPartitioner接口的实现。
在迁移完成后，需要进行测试和验证。可以使用Flink提供的集成测试工具，对迁移后的自定义动态分区程序进行功能测试和性能测试，确保迁移过程没有引入新的问题。

总结起来，将自定义动态分区程序从Flink 1.7迁移到Flink 1.9的关键步骤包括了解新版本的改进、修改代码以适应新的接口、进行测试和验证。在实际应用中，自定义动态分区程序可以用于根据特定的规则将数据流分配到不同的分区中，以实现更高效的数据处理和计算。对于Flink 1.9版本，推荐使用腾讯云的云原生数据库TDSQL和云原生数据仓库CDW来支持自定义动态分区程序的部署和运行。具体产品介绍和链接如下：

腾讯云原生数据库TDSQL：TDSQL是腾讯云提供的一种高性能、高可用、弹性扩展的云原生数据库服务。它支持自动分区和动态扩缩容，适用于大规模数据存储和处理场景。了解更多信息，请访问：TDSQL产品介绍
腾讯云原生数据仓库CDW：CDW是腾讯云提供的一种高性能、弹性扩展的云原生数据仓库服务。它支持自定义分区和动态分区，适用于大规模数据分析和查询场景。了解更多信息，请访问：CDW产品介绍

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

Flink1.9整合Kafka

预定义的source支持从文件、目录、socket，以及 collections 和 iterators 中读取数据。... 1.9.0 安装Kafka：可以参照 Kafka入门宝典（详细截图版）兼容性：从Flink 1.7...Flink Kafka Consumer支持发现动态创建的Kafka分区，并使用一次性保证消费它们。...自定义分区：默认情况下，将使用FlinkFixedPartitioner将每个Flink Kafka Producer并行子任务映射到单个Kafka分区。...可以实现FlinkKafkaPartitioner类自定义分区。

2.1K3 1

Flink从1.7到1.12版本升级汇总

在实际操作中跟1.12.x版本还是有差距的, 所以整理一下从1.7 版本到1.12版本之间的相对大的变动. 做到在学习的过程中可以做到心里有数....二 .Flink 1.7 版本在 Flink 1.7.0，我们更关注实现快速数据处理以及以无缝方式为 Flink 社区构建数据密集型应用程序。...社区添加了一个 Elasticsearch 6 table sink，允许存储动态表的更新结果。 2.6. 版本化REST API 从 Flink 1.7.0 开始，REST API 已经版本化。...FlinkKafkaConsumer现在将根据主题规范过滤恢复的分区（FLINK-10342）从Flink 1.8.0开始，现在FlinkKafkaConsumer总是过滤掉已恢复的分区，这些分区不再与要在还原的执行中订阅的指定主题相关联...在 Flink 1.10 中，Flink SQL 扩展支持了 INSERT OVERWRITE 和 PARTITION 的语法（FLIP-63 [18]），允许用户写入 Hive 中的静态和动态分区。

2.6K2 0

Flink1.9整合Kafka实战

预定义的source支持从文件、目录、socket，以及 collections 和 iterators 中读取数据。... 1.9.0 兼容性：从Flink 1.7开始，它不跟踪特定的Kafka主要版本。...Flink Kafka Consumer支持发现动态创建的Kafka分区，并使用一次性保证消费它们。...自定义分区：默认情况下，将使用FlinkFixedPartitioner将每个Flink Kafka Producer并行子任务映射到单个Kafka分区。...可以实现FlinkKafkaPartitioner类自定义分区。

7852 0

Flink实战(八) - Streaming Connectors 编程

3.4 Kafka 1.0.0 Connector 从Flink 1.7开始，有一个新的通用Kafka连接器，它不跟踪特定的Kafka主要版本。相反，它在Flink发布时跟踪最新版本的Kafka。...将Kafka Connector从0.11迁移到通用(V1.10新增）要执行迁移，请参阅升级作业和Flink版本指南和在整个过程中使用Flink 1.9或更新版本。...自定义分区程序将记录分配给特定分区，可以为FlinkKafkaPartitioner构造函数提供实现。将为流中的每个记录调用此分区程序，以确定应将记录发送到的目标主题的确切分区。...如果Flink应用程序崩溃和完成重启之间的时间较长，那么Kafka的事务超时将导致数据丢失（Kafka将自动中止超过超时时间的事务）。考虑到这一点，请根据预期的停机时间适当配置事务超时。...如果作业失败，Flink会将流式程序恢复到最新检查点的状态，并从存储在检查点中的偏移量开始重新使用来自Kafka的记录。因此，绘制检查点的间隔定义了程序在发生故障时最多可以返回多少。

2K2 0

Flink实战(八) - Streaming Connectors 编程

3.4 Kafka 1.0.0+ Connector 从Flink 1.7开始，有一个新的通用Kafka连接器，它不跟踪特定的Kafka主要版本。...将Kafka Connector从0.11迁移到通用(V1.10新增）要执行迁移，请参阅升级作业和Flink版本指南和在整个过程中使用Flink 1.9或更新版本。...自定义分区程序将记录分配给特定分区，可以为FlinkKafkaPartitioner构造函数提供实现。将为流中的每个记录调用此分区程序，以确定应将记录发送到的目标主题的确切分区。...如果Flink应用程序崩溃和完成重启之间的时间较长，那么Kafka的事务超时将导致数据丢失（Kafka将自动中止超过超时时间的事务）。考虑到这一点，请根据预期的停机时间适当配置事务超时。...如果作业失败，Flink会将流式程序恢复到最新检查点的状态，并从存储在检查点中的偏移量开始重新使用来自Kafka的记录。因此，绘制检查点的间隔定义了程序在发生故障时最多可以返回多少。

2.9K4 0

Flink实战(八) - Streaming Connectors 编程

3.4 Kafka 1.0.0+ Connector 从Flink 1.7开始，有一个新的通用Kafka连接器，它不跟踪特定的Kafka主要版本。...将Kafka Connector从0.11迁移到通用(V1.10新增）要执行迁移，请参阅升级作业和Flink版本指南和在整个过程中使用Flink 1.9或更新版本。...自定义分区程序将记录分配给特定分区，可以为FlinkKafkaPartitioner构造函数提供实现。将为流中的每个记录调用此分区程序，以确定应将记录发送到的目标主题的确切分区。...如果Flink应用程序崩溃和完成重启之间的时间较长，那么Kafka的事务超时将导致数据丢失（Kafka将自动中止超过超时时间的事务）。考虑到这一点，请根据预期的停机时间适当配置事务超时。...如果作业失败，Flink会将流式程序恢复到最新检查点的状态，并从存储在检查点中的偏移量开始重新使用来自Kafka的记录。因此，绘制检查点的间隔定义了程序在发生故障时最多可以返回多少。

2K2 0

Flink1.8.0发布！新功能抢先看

的二进制文件更多详细如下：这次的发行版本讨论了Flink 1.7和Flink 1.8之间发生变化的重要方面，例如配置，特性或依赖性。...使用Flink1.8.0，我们在TypeSerializers将所有内置迁移到新的序列化器快照抽象方面取得了很大进展，该抽象理论上允许模式迁移。...可以通过升级到Flink 1.3和Flink 1.7之间的版本，然后再更新至Flink 1.8来解决此限制。...7、更改为指定Null的方式（FLINK-11785）现在Table API中的Null需要定义nullof(type)而不是Null(type)。旧方法已被弃用。...2、FlinkKafkaConsumer现在将根据主题规范过滤恢复的分区（FLINK-10342）从Flink 1.8.0开始，现在FlinkKafkaConsumer总是过滤掉已恢复的分区，这些分区不再与要在还原的执行中订阅的指定主题相关联

1.4K2 0

Flink1.8新版发布:都有哪些改变

Flink 1.7和Flink 1.8之间发生变化的重要方面，例如配置，特性或依赖性。...使用Flink 1.8.0，我们在TypeSerializers将所有内置迁移到新的序列化器快照抽象方面取得了很大进展，该抽象理论上允许模式迁移。...可以通过升级到Flink 1.3和Flink 1.7之间的版本，然后再更新至Flink 1.8来解决此限制。...7、更改为指定Null的方式（FLINK-11785）现在Table API中的Null需要定义nullof(type)而不是Null(type)。旧方法已被弃用。...2、FlinkKafkaConsumer现在将根据主题规范过滤恢复的分区（FLINK-10342）从Flink 1.8.0开始，现在FlinkKafkaConsumer总是过滤掉已恢复的分区，这些分区不再与要在还原的执行中订阅的指定主题相关联

1.4K2 0

Flink-1.9流计算开发：五、keyBy、sum、print函数

Flink是下一代大数据计算平台，可处理流计算和批量计算。《Flink-1.9流计算开发：五、keyBy、sum、print函数》是cosmozhu写的本系列文章的第五篇。...小结在本篇文章中我们使用了自定义数据源，每隔1秒钟自动生成一条订单数据流。...然后用过keyBy函数将数据流安装商品类型逻辑分区，然后将分好区的数据进行sum汇总，最后通过print函数打印在标准输出中。本文中使用的Tuple2是flink框架自带的POJO。...相关文章 Flink-1.9流计算开发：十六、intervalJoin函数 Flink-1.9流计算开发：十五、join函数 Flink-1.9流计算开发：十四、union函数 Flink-1.9...流计算开发：十三、min、minBy、max、maxBy函数 Flink-1.9流计算开发：十二、apply函数

1.9K2 0

深入理解 Flink 容错机制

来源:本文作者是网易游戏的林小铂（社区ID：Paul Lam）场景描述：作为分布式系统，尤其是对延迟敏感的实时计算引擎，Apache Flink 需要有强大的容错机制，以确保在出现机器故障或网络分区等不可预知的问题时可以快速自动恢复并依旧能产生准确的计算结果...关键词：Flink 容错机制作为分布式系统，尤其是对延迟敏感的实时计算引擎，Apache Flink 需要有强大的容错机制，以确保在出现机器故障或网络分区等不可预知的问题时可以快速自动恢复并依旧能产生准确的计算结果...Flink 的容错机制主要分为从 checkpoint 恢复状态和重流数据两步，这也是为什么 Flink 通常要求数据源的数据是可以重复读取的。...不过值得注意的是，在 1.9 版本以前 RestartPipelinedRegionStrategy 有个严重的问题是在重启 Task 时并不会恢复其状态[4]，所以请在 1.9 版本以后才使用它，除非你在跑一个无状态的作业...不断尝试将自己注册到 ResourceManager 上。

2.1K3 1

Flink-1.9流计算开发：十一、count-window-Sliding窗口函数

Flink是下一代大数据计算平台，可处理流计算和批量计算。《Flink-1.9流计算开发：十一、count-window-Sliding》cosmozhu写的本系列文章的第十一篇。...StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); //添加自定义数据源.../StreamTest.java ---- 作者：cosmozhu --90后的老父亲，专注于保护地球的程序员个人网站：https://www.cosmozhu.fun 欢迎转载，转载时请注明出处...相关文章 Flink-1.9流计算开发：十六、intervalJoin函数 Flink-1.9流计算开发：十五、join函数 Flink-1.9流计算开发：十四、union函数 Flink-1.9...流计算开发：十三、min、minBy、max、maxBy函数 Flink-1.9流计算开发：十二、apply函数

5593 0

Flink-1.9流计算开发：七、fold函数

Flink是下一代大数据计算平台，可处理流计算和批量计算。《Flink-1.9流计算开发：七、fold函数》是cosmozhu写的本系列文章的第七篇。...StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); //添加自定义数据源.../StreamTest.java ---- 作者：cosmozhu --90后的老父亲，专注于保护地球的程序员个人网站：https://www.cosmozhu.fun 欢迎转载，转载时请注明出处...相关文章 Flink-1.9流计算开发：十六、intervalJoin函数 Flink-1.9流计算开发：十五、join函数 Flink-1.9流计算开发：十四、union函数 Flink-1.9...流计算开发：十三、min、minBy、max、maxBy函数 Flink-1.9流计算开发：十二、apply函数

7293 0

Flink-1.9流计算开发：十二、apply函数

Flink是下一代大数据计算平台，可处理流计算和批量计算。《Flink-1.9流计算开发：十二、apply函数》cosmozhu写的本系列文章的第十二篇。...StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); // 添加自定义数据源.../StreamTest.java ---- 作者：cosmozhu --90后的老父亲，专注于保护地球的程序员个人网站：https://www.cosmozhu.fun 欢迎转载，转载时请注明出处...相关文章 Flink-1.9流计算开发：十六、intervalJoin函数 Flink-1.9流计算开发：十五、join函数 Flink-1.9流计算开发：十四、union函数 Flink-1.9...流计算开发：十三、min、minBy、max、maxBy函数 Flink-1.9流计算开发：十一、count-window-Sliding窗口函数

2.4K4 0

带你走入 Flink 的世界

极高的可伸缩性可伸缩性对于分布式系统十分重要，资源不够可以动态添加节点，分摊压力，资源充足，撤下服务器，减少资源浪费。...这里不会太深入分析，主要简单介绍它的特性和优点，有个大致的了解，由浅入深，在之后的文章中慢慢加深学习~ 处理流程 Flink 程序的基本构建块是流和转换。...上图的数据源是 Kafka Source，蓝色是 Storm，橙色是 Flink，在一个分区 partition 情况下，Flink 吞吐约为 Storm 的 3.2 倍；而在 8 个分区情况下，性能提高到...上面是官方示意图，阐述了 Flink 提交作业的流程，应用程序 Flink Program、JobManage 和 TaskManager 之间的关系。 ?...总结：未来的计算方式从调研的结果中能看出，无论从性能、接口编程和容错上，Flink 都是一个不错的计算引擎。

1.1K3 0

Flink面试通关手册

Flink 支持了流处理程序在时间上的三个定义：处理时间、事件时间、注入时间。同时也支持 watermark 机制来处理滞后数据。 4....Client是Flink程序提交的客户端，当用户提交一个Flink程序时，会首先创建一个Client，该Client首先会对用户提交的Flink程序进行预处理，并提交到Flink集群中处理，所以Client...KeyGroupStreamPartitioner Hash分区器。会将数据按 Key 的 Hash 值输出到下游算子实例中。 CustomPartitionerWrapper 用户自定义分区器。...需要用户自己实现Partitioner接口，来定义自己的分区逻辑。...forward（参考理解数据流的分区）用户没有禁用 chain 十六、说说Flink1.9的新特性？

1.3K2 1

Apache Flink：数据流编程模型

https://www.bilibili.com/video/av66869896/ Flink的数据流编程模型(基于最新版flink1.9)，共包含的概念有：抽象层级，程序和数据流，并行数据流，窗口，...Table API是以表为中心的声明性DSL，可以是动态更改表（表示流时）。...表API程序以声明方式定义应该执行的逻辑操作，而不是准确指定操作代码的外观。...从概念上讲，流是（可能永无止境的）数据记录流，而转换的操作是将一个或多个流作为输入，并产生一个或多个输出流作为结果。执行时，Flink程序映射到流式数据流，由流和转换算子组成。...| 并行数据流 Flink中的程序本质上是并行和分布式的。在执行期间，流具有一个或多个流分区，并且每个算子具有一个或多个算子子任务。

1.3K3 0

Flink CEP学习线路指导1：Flink CEP入门

亦可参考官网： https://ci.apache.org/projects/flink/flink-docs-release-1.9/dev/libs/cep.html 由于版本会更新，网址可能会失效...，并且定义了相邻模式的关系。...这里可以让我们读懂CEP模式的程序，更多参考 http://www.aboutyun.com/forum.php?...mod=viewthread&tid=27487 2.Flink CEP SQL 对于Flink CEP SQL是官网后期添加的，当前版本Flink1.9，已经发展的很不错了。...如果是CEP，则为：从源数据中查找匹配：123 1 2 3 4 5 6 7 1 2 2 3。。。。于是我们找到匹配： 1 2 3 1 2 2 3 123 。。。。

2.3K2 0

Flink面试通关手册

Flink 支持了流处理程序在时间上的三个定义：处理时间、事件时间、注入时间。同时也支持 watermark 机制来处理滞后数据。 4....Client是Flink程序提交的客户端，当用户提交一个Flink程序时，会首先创建一个Client，该Client首先会对用户提交的Flink程序进行预处理，并提交到Flink集群中处理，所以Client...KeyGroupStreamPartitioner Hash分区器。会将数据按 Key 的 Hash 值输出到下游算子实例中。 CustomPartitionerWrapper 用户自定义分区器。...需要用户自己实现Partitioner接口，来定义自己的分区逻辑。...forward（参考理解数据流的分区）用户没有禁用 chain 十六、说说Flink1.9的新特性？

1.4K2 4

State Processor API：如何读写和修改 Flink 应用程序的状态

Flink 1.9 之前的状态流处理几乎所有重要的流处理应用程序都是有状态的，其中大多数都需要运行数月或者数年。...然而，Flink 用户经常提起的一个需求就是能够’从外部’访问应用程序的状态。...这个需求的动机是验证或者调试应用程序的状态、将应用程序的状态迁移到另一个应用程序、将应用程序从 Heap State Backend 改为 RocksDB State Backend，或者导入来自外部系统...此外，作为应用程序状态的一致快照的 Savepoint 也无法访问，因为应用程序状态是使用自定义二进制格式编码的。 2....因此，将其迁移到另一个 API 也相当容易。 5. 总结一直以来 Flink 用户一直需要这一项功能，实现从外部访问以及修改流应用程序的状态。

1.5K2 0

TiDB 6.0 实战分享丨冷热存储分离解决方案

将热数据从 ssd 迁移到 hdd，每小时可归档约 3000 万行，总体来看效率还是比较高的将冷数据从 hdd 迁移到 ssd，每小时可迁移约 6300 万行，大约是从 ssd 迁移到 hdd 速度的...110 万行数据从 ssd 迁移到 hdd，大约耗时 3min 。...静态集群冷热存储分离（无外部访问）ssd->hdd继续通过 flink 写入数据到 2022-04-17 分区，然后停流使集群没有外部访问流量，将此分区上 ssd 数据迁移到 hdd。 ...约 6 千万行 130GB 数据从 ssd 数据迁移到 hdd 大概需要 2 个小时结论：在将大规模数据从 ssd 数据迁移到 hdd 过程，集群资源消耗比较低，可以有效避免过多占用集群资源。...迁移的过程中，ssd 和 hdd 节点的 IO 使用率都比较低，如下图：1652426155311.png结论：将冷数据从 hdd 迁移至 ssd，迁移 1.7 亿行共约 200GB 数据，大约耗时 2

1.3K3 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭