Apache Flink:如何使用本地预聚合计算窗口？

文章/答案/技术大牛

发布

1回答

apache-flink、flink-streaming

我有一个DataStream，需要在它上面计算一个窗口聚合。当我执行常规窗口聚合时，网络IO非常高。因此，我希望执行本地预聚合，以减少网络IO。我想知道是否有可能在本地对任务管理器进行预聚合(即，在混洗记录之前)，然后执行完整的聚合。使用Flink的DataStream应用程序接口可以做到这一点吗？

浏览 25提问于2017-12-15得票数 2

1回答

Flink中的预洗牌聚合

apache-flink、flink-streaming

我们正在将火花作业迁移到flink。我们已经在火花中使用了预洗牌聚合。是否有办法在火花中执行类似的操作。我们正在消耗来自apache kafka的数据。我们正在使用键控滚动窗口来聚合数据。我们希望在执行洗牌之前将数据聚合到flink中。

浏览 11提问于2021-08-17得票数 3

回答已采纳

1回答

Apache Flink:在一个窗口中计算和输出多个值

apache-flink

我们计划使用Apache Flink对多种类型的对象执行实时聚合。我们需要支持几种类型的聚合，如sum，max，min，average等-到目前为止没有什么特别的我的问题是，用Flink实现这种要求的最佳方式是什么？我们考虑使用一个自定义窗口函数，该函数将在窗口<

浏览 3提问于2017-06-05得票数 4

1回答

在Apache中聚合两种不同类型的记录

apache-flink

我有一个特定的任务，使用Apache Flink和一些额外的逻辑将两个数据流连接到一个聚合中。事件数据流( Data of events )开始根据某些键在某个聚合或窗口中不断积累Type A;The记录的记录；(元事件数据

浏览 6提问于2020-07-06得票数 0

回答已采纳

1回答

在Flink* Streaming中按键对记录进行分组并收集到ListBuffer中*

apache-flink、flink-streaming

我有一个DataStream[(String, somecaseclass)]类型的Flink DataStream。我检查了Flink DataStream上几乎所有的转换，但没有一个适合用例。

浏览 12提问于2017-12-28得票数 3

回答已采纳

1回答

我有一个用Flink编写的流处理应用程序&我想从状态后端使用它的内部键值存储来计算流聚合。因为我要处理大量的聚合，所以我希望避免像当前提供的内存备份和文件备份实现那样，在Flink应用程序内部将它们维护在堆上。取而代之的是，我希望在Apache Ignite中维护一个状态缓存，这样就可以使用直写和直读特性在HBase中提供更可靠的备份。理想情况下，我应该在每个物理节点上都有一个本地Ignite缓存，用于处理该节点上所有长期运行

浏览 3提问于2016-02-08得票数 1

2回答

Flink表异常:只能在时间属性列上定义窗口聚合，但遇到时间戳(6)

apache-flink、flink-streaming、flink-sql、flink-table-api

我正在使用flink 1.12.0。试图将数据流转换为表A，并在tableA上运行sql查询，以便按下面的方式通过窗口进行聚合，我使用f2列作为时间戳数据类型字段。kafka test");当我执行上述代码时，我得到线程“主”org.apache.flink.table.api.TableException中的异常:窗口聚合只能在时间属性列上定义，但是遇到时间戳在org.apache.fli

浏览 5提问于2021-02-15得票数 0

回答已采纳

1回答

单个数据流上的多个滑动窗口

apache-flink、sliding-window

我目前正在解决Flink中的一个问题，其中我必须计算窗口大小为7天、14天和1个月的三个不同滑动窗口的聚合函数。据我所知，我将不得不运行三个不同的消费者，具有上述的窗口大小。是否有一种方法可以为单个数据流实现三个滑动窗口，所有这些都使用单个使用者代码？使用Flink实现此功能的一些代码或引用是非常值得注意的。我知道的是:消费者1在7天的滑动窗口上计算，消费者2在1

浏览 1提问于2019-06-26得票数 0

1回答

Flink流: TriggerResult.FIRE和TriggerResult.FIRE_AND_PURGE的区别

apache-flink、flink-streaming

我有一个Flink流媒体程序，在10秒的会话窗口中计算出卡夫卡的一些内容。会话窗口默认触发器为FIRE。如果我使用FIRE_AND_PURGE，什么会被清除？

浏览 4提问于2019-02-19得票数 2

回答已采纳

1回答

Flink Session窗口:计数事件并在特定事件计数时触发

apache-flink、flink-streaming

当窗口中有5个事件时，我使用自定义触发器来触发。这对于TumblingEventTimeWindow和SlidingTimeWindow都很有效，因为它们都有固定的窗口开始和结束。但该逻辑不适用于会话窗口，因为每个事件都会导致创建一个窗口，然后再进行合并。我使用reducing状态来计算事件数。 required

浏览 1提问于2018-03-29得票数 1

1回答

滑动时间窗口的Flink性能问题

apache-flink

我正在尝试一些网络监控工作的flink。我的目标是计算每个src_ip的不同src_ip。下面的代码可以工作，但是性能确实很差。似乎每个滑动窗口重新计算所有事件，但这不应该是必要的。例如，我们有活动准时第二次1- 600.Flink可以得到每秒钟的累加器，所以我们每秒钟有600个累加器。当第一个滑动窗口过期时，flink只合并1到300的累加器，并销毁第二个1的累加器。此窗口还可以在最后一秒钟前将1-299进行预合并。当第二个滑动<

浏览 1提问于2018-08-23得票数 3

1回答

利用输入分区来避免任务管理器之间的通信。

apache-flink、apache-beam、flink-streaming

我们有一个Flink管道，通过将数据与相同的键("client-id")结合在同一个窗口中，聚合每个“客户端”的数据。这个问题是微不足道的并行性的，并且输入Kafka主题有几个分区(与Flink并行性相同的数字)--每个分区都包含一个客户端的子集。也就是说，一个客户端总是在一个特定的Kafka分区中。，如果后者是真的--我们能以某种方式避免重组，并按照输入分区分配的方式将数据保持在每个操作符的本地吗？注意:我们实际上是在使用带有Flink后端的<e

浏览 5提问于2021-11-05得票数 0

回答已采纳

1回答

具有窗口和状态的flink聚合

apache-flink、flink-streaming

我正在寻找一种在具有状态的窗口上实现聚合/折叠函数的方法。我了解如何在窗口上进行聚合，以及如何使用键/全局状态--但两者都不知道。为了明确起见，当我说一个带有状态的窗口时--我的意思是，每次更改/移动时，状态都应该初始化(无效)。例如:我希望每5分钟按事件类型计算事件数。但是，除了事件类型(即窗口键)之外，事件还有一些id字段--我只想计数每个id一次--所以我需要保存我在该窗

浏览 4提问于2017-04-23得票数 3

1回答

在StreamAPI上高效的Flink排序

sorting、apache-flink、flink-streaming

让我们以Flink示例中定义的页面视图的用例为例。此示例尝试聚合每15分钟窗口的页面查看计数。如果我想要改变这一点以获得15个窗口的前3个页面浏览量，那么有效的方法是什么？一种选择是在聚合函数之后使用windowAll函数，并在内存中进行排序。问题是- windowAll会将并行度降低到1，并且它要求将所有数据放在同一个任务槽中以执行排序操作。在我的用例中，在15分钟的窗口内将有数百万或数十亿个键，因此，所有这些百万或数十亿聚合的行都必须通过网络，这

浏览 0提问于2021-02-15得票数 0

1回答

Flink:将窗口集合附加到事件中

apache-flink、flink-streaming

我们希望使用Flink来维护窗口聚合，作为事务监视应用程序的一部分。它们将使用滑动窗口定义。例如：“过去5天的现金交易总额”。下面是我需要Flink应用程序做的工作: 1.通过读取历史聚合和构建windows 2来准备事务处理。对于每个新事务: a.用新的事务数据b更新窗口聚合。找到与传入时间戳匹配的窗口，并将聚合值添加到事务c。通过RabbitMQ或Kafka接收器将增强的事务(

浏览 5提问于2017-06-23得票数 0

1回答

Flink文件系统支持

apache-flink

博士说“一个不完整的列表”。我在哪里可以找到一个完整的？

浏览 5提问于2018-08-08得票数 0

1回答

如何在Flink中使用单个窗口进行多个聚合？

apache-spark、bigdata、apache-flink、flink-streaming

但是在Flink中，似乎任何聚合都应该使用特定的窗口执行，如下所示 .window(???) // window 1如果我设置了窗口2，那么第二个聚合的输入数据可能不是第一个聚合的输出，这将违背我的意愿。我希望使用相同的批处理数据进行多个连续聚合，这些数据可以在单个窗口中收集。<

浏览 4提问于2022-04-20得票数 0

1回答

如何过滤大于flink中某一点的值？

apache-flink

第一个是基于时间的流，我使用countTimeWindow接收前10个数据点来计算STAT值。我手动使用了变量cnt来只保留第一个窗口，并过滤了剩余的值，如下面的代码所示。然后，我想使用这个值来过滤主流，以便获得比我在窗口流中计算的stat值更大的值。然而，我不知道如何合并或计算这两个流来实现我的目标。; import org.apache.flink.api.common.functions.M

浏览 10提问于2019-02-12得票数 0

回答已采纳

1回答

在Flink中的聚合原语中具有与HOP_START等效项

apache-flink、flink-streaming、windowing、apache-calcite、flink-sql

我正在尝试在Flink SQL的跳跃窗口上做一个指数衰减的移动平均值。at org.apache.flink.table.codegen.CodeGenerator$$anonfun$visitCall$3.apply(CodeGenerator.scala:1027):66) 当它在聚合和之外工作时，它确实是未实现的。现在，问题是:我可以转换这个表达式并在聚合之外进行最后的处理，例如exp(x+y) = exp(x)*exp(y)；但是我坚持使用TIMESTAMPDI

浏览 115提问于2019-02-13得票数 0

1回答

Flink Windows -如何在新事件出现时立即发出中间结果？

apache-flink、flink-streaming、flink-sql

Flink 1.14，Java，Table + DataStream API (toDataStream/toAppendStream)。并且在新事件出现时立即将结果重新插入Cassandra，换句话说，在每个新事件上创建新记录或重新计算已经存在的记录，并立即将结果汇到Cassandra。为此，我使用SQL：TUMBLE(TABLE mytable, DESCRIPTOR(action_datetime), INTERVAL '1' HOURS) 与连续表上

浏览 11提问于2022-09-26得票数 0

回答已采纳

点击加载更多