如何对flink表而不是流执行setParallelism

就像标题一样，当我只在我的流应用程序中使用DataStream应用程序接口时，我使用了很多setParallelism。最近我发现在我的场景中使用表API更好，因为它可以统一批处理/流应用程序，这些应用程序通常必须是两个不同的，只使用不同的dataset/数据流API就可以节省大量重复的代码。但是当我尝试将我的流应用程序移植到表API时。我发现表不支持setParallelism。我必须像这样通过我的定制API来

浏览 11提问于2019-09-02得票数 0

1回答

如何在flink应用程序中指定两个源，一个进程运算符和一个接收器运算符

我使用的是flink 1.3，我已经定义了两个流源，它们将发出相同的事件由后续操作符处理(我定义的进程操作符和接收器操作符) .name("source1") .setParallelism(4).addSink(new MySink(

浏览 2提问于2020-08-01得票数 0

回答已采纳

1回答

Flink中并行性和多个应用程序的区别

、

我计划动态缩放一个Flink应用程序。该应用程序使用kafka-flink连接器消耗来自Kafka的事件。因为应用程序的“热身”只需几分钟(缓存.)而改变并行级别涉及重新启动，我更喜欢提交(放大)或交替杀死(缩小)任务，而不是改变并行级别。我想知道，从性能、逻辑和执行计划来看，这种方法和Flink内置的并行执行有什么不同吗？换句话说，10个相同的Flink任务与一个并行级别= 10的任务( env.setParallelism

浏览 1提问于2019-09-25得票数 0

回答已采纳

2回答

Flink从GenericRecord流生成动态流

、、、、

我有一个用例，当我们在模式注册表中为主题起诉TopicRecordNameStrategy时，在单个Kafka主题中有多种类型的Avro记录。现在，我已经编写了一个使用者来阅读该主题并构建一个GenericRecord数据流。现在，我不能将此流汇到parquet格式的hdfs/s3中，因为此流包含不同类型的模式记录。因此，我通过应用过滤器并创建不同的流，然后分别下沉每个流，为每种类型过滤不同的记录。2.我必须通过filter和all创建多个流。所以请建议我，

浏览 69提问于2020-02-21得票数 1

回答已采纳

2回答

Flink CEP不是确定性的

、

当我在一个大型输入流上运行它时，如果我知道流中存在一定数量的事件，我会得到一个不一致的检测到的事件计数，几乎总是少于系统中的事件数量。如果我执行env.setParallelism(1) (就像我在代码的第3行中所做的那样)，那么所有的事件都会被检测到。我假设问题是当并行度大于1时，多个线程正在处理来自流的事件，这意味着当一个线程具有event(val=1) -> event(val=2)时，event(val=3)可能会被发送到另一个线程，而整个模式可能无法检测到我是不是漏掉了什么？我不能丢失<e

浏览 0提问于2016-08-10得票数 2

1回答

如何增加Flink* taskmanager.numberOfTaskSlots以在没有Flink服务器的情况下运行它(在集成开发环境或fat jar中)*

、、

我有一个关于在IDE中运行Flink流作业或作为fat jar运行而不将其部署到Flink服务器的问题。 kafkaProperties.setProperty("group.id", "test"); DataStream<

浏览 16提问于2018-07-19得票数 5

回答已采纳

2回答

Apache API没有mapPartition转换

Spark有mapPartition API，而Flink DataStream API没有。有谁能帮助解释原因吗？我想要做的是在Flink上实现一个类似于星火reduceByKey的API。

浏览 2提问于2015-10-28得票数 7

回答已采纳

3回答

Apache在Spark/Flink上对批处理有什么好处？

、、

支持多个运行程序后端，包括Apache和Flink。我很熟悉Spark/Flink，我正试图看到Beam批量处理的利弊。从的角度来看，它觉得它非常类似于本机Spark/Flink的等价物，可能有一个稍微冗长一些的语法。 Con:这种抽象的代价是减少了对在Spark

浏览 4提问于2017-04-24得票数 108

回答已采纳

1回答

Flink SQL行为

、、

我想对批处理数据执行Flink SQL。(S3中的CSV)例如，我的查询包括对两个表进行筛选和加入筛选的结果。我希望Flink不要以阻塞批处理的方式实现这两个表，然后通过join传递结果，而是使用流哈希连接操作符，就像datastream中的那样。我怎样才能做到这一点？我正在使用PyFlink。

浏览 6提问于2022-04-02得票数 1

1回答

在Flink* DataSet上应用多个连接的分区策略*

、、

我正在使用Flink 1.4.0。，并不是每个xlabels中都存在所有的评级键。另一个附带的问题是，设置为1的第一个.setParallelism在执行管道的其余部分方面是否具有限制性，即后续.setParallelism(N)能否改变DataSet的处理方式？根据Flink文档为v.1.4.0 REPARTITION_SORT_MERGE:系统分区(洗牌)每个输入(除非输入已经被分区)，并对每个输入进行排序(除非已经排序)。输入由排序输入的流合并

浏览 0提问于2018-03-02得票数 2

回答已采纳

1回答

如何从worker节点收集结果并在intellij中打印？

print()将结果保存在集群中随机节点的随机任务管理器中，有办法收集这些结果并打印在intellij的控制台窗口中吗？

浏览 1提问于2020-09-28得票数 0

回答已采纳

1回答

Apache表1.4:表上可能有外部SQL执行吗？

、、

是否可以在外部查询现有的StreamTable，而不上传.jar获取执行环境和检索表环境？由于Apache表1.4的动态(连续)表特性，我一直在等待它的发布。我期待其他的东西，我认为在运行时修改表并修改它的参数是可能的。为了执行一些活动查询，而不是在数据流之上定义(连续的或仅附加的)数据库视图。我知道我可以将我的表导出到一些数据库中，并使用SQL动态查询这个数据库，但这是一种尴尬的行为。Fl

浏览 5提问于2017-10-25得票数 2

回答已采纳

1回答

Flink KeyedProcessFunction排序

、

我对Flink很陌生，并试图了解Flink命令如何在并行性下的processElement()抽象中调用KeyedProcessFunction。考虑这个产生部分和流的例子： import org.apache.flink.api.common.state.import org.apache.flink.streaming.api.scala.val env: StreamExecutionEnvironment = StreamExec

浏览 2提问于2021-04-14得票数 1

回答已采纳

1回答

Flink内存耗尽

、

我有一些相当简单的流代码，可以通过时间窗口聚合数据。窗口位于较大的一边(1小时，有2小时的限制)，流中的值是来自数百个服务器的度量。我一直没有内存，所以我添加了RocksDBStateBackend。这两个后端从未将任何数据写入磁盘，而只是使用JobID创建了一个目录。我在独立模式下运行这段代码，而不是部署。.addSink(new MetricStoreSinkFunction(parameters, "mean")) .name("hourly mean stre

浏览 1提问于2018-03-14得票数 1

回答已采纳

1回答

如何在Flink表API中加入两个数据流和滑动窗口函数？

、、、、

我有两个来自两个Kafka主题的流表，我想加入这些流并对所连接的数据执行聚合功能。需要使用滑动窗口连接流。TIMESTAMPDIFF(SECOND, ep.event_flink_time, cep.event_flink_time) as timediff, HOP_START (cep.event_flink_time, INTERVAL '5' MINUTES, INTERVAL '10&#

浏览 25提问于2022-05-24得票数 0

1回答

Apache将流划分为输入Kafka主题相同

、、、、

我想在Apache中实现以下场景：考虑到有4个分区的Kafka主题，我想使用不同的逻辑在Flink中独立地处理分区内的数据，这取决于事件的类型。在Flink中，我想根据事件应用不同的业务逻辑，所以我认为应该以某种方式分割流。也是这样，如果我想并行处理每个Flink分区，因为我只想按顺序处理按同一个Kafka分区排序的事件，而不是全局地考虑它们，那么(b)我如何处理？我知道setParallelism()方法的存在，但我不知道在这个场景中应用

浏览 2提问于2020-10-03得票数 2

回答已采纳

1回答

如何理解Flink中的流表？

、、、

对我来说，很难理解Flink中的流表。我可以理解Hive，将一个固定的静态数据文件映射到一个“表”，但是如何体现一个建立在流数据之上的表呢？例如，每1秒就有5个具有相同结构的事件被发送到Kafka流：{"num":2, "value": "b"} ....构建在它们

浏览 2提问于2020-10-29得票数 0

回答已采纳

1回答

使用FLINK将JSON接收到Kafka的最快方法

、、、

码优化如果我只是执行处理->，我可以通过这个函数运行大约30,000个字符串，但是当我添加函数将其转换为STring，然后将其转换为kafka时，我的吞吐量下降到每秒17,000个字符串如果不是的话，我该如何将一个json ObjectNode放进卡夫卡呢？还有什么其他的解决办法。我认为瓶颈是to字符串函

浏览 1提问于2019-01-30得票数 0

回答已采纳

2回答

Apache Flink: setParallelism()和setMaxParallelism()有什么区别？

、

我尝试使用ExecutionConfig.setMaxParallelism()方法为Flink作业设置最大并行度，但似乎不起作用。setMaxParallelism()是如何工作的？

浏览 17提问于2019-02-07得票数 1

1回答

flink1.6流式处理非窗口左外部联接顺序错误

Streaming non window left outer join是flink1.6中的一个新特性。当我在两个动态表之间执行此操作时。join结果顺序错误。如何正确使用此功能？这两个动态表都是按data_update_time排序。NonWindowJoin左表的状态和右表的状态都使用flink托管状态MapState。当我查看flink的non window join代码时。我搞混了：(1) MapState的关键字是Row

浏览 1提问于2018-10-12得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何在flink应用程序中指定两个源，一个进程运算符和一个接收器运算符

Flink中并行性和多个应用程序的区别

Flink从GenericRecord流生成动态流

Flink CEP不是确定性的

如何增加Flink* taskmanager.numberOfTaskSlots以在没有Flink服务器的情况下运行它(在集成开发环境或fat jar中)*

Apache API没有mapPartition转换

Apache在Spark/Flink上对批处理有什么好处？

Flink SQL行为

在Flink* DataSet上应用多个连接的分区策略*

如何从worker节点收集结果并在intellij中打印？

Apache表1.4:表上可能有外部SQL执行吗？

Flink KeyedProcessFunction排序

Flink内存耗尽

如何在Flink表API中加入两个数据流和滑动窗口函数？

Apache将流划分为输入Kafka主题相同

如何理解Flink中的流表？

使用FLINK将JSON接收到Kafka的最快方法

Apache Flink: setParallelism()和setMaxParallelism()有什么区别？

flink1.6流式处理非窗口左外部联接顺序错误

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐