使用Python Flink API进行排序

文章/答案/技术大牛

发布

0回答

我希望对groupBy的结果进行排序，但没有看到像Java / Scala那样受支持的方式。我想我可以在传递给reduce_group的函数中实现迭代器，但这看起来很笨拙。

浏览 0提问于2016-07-20得票数 1

回答已采纳

1回答

flink流具有多个数据流，然后使用org.apache.flink.streaming.api.datastream.DataStream#union方法对这些数据流进行合并。然后，我得到了问题，数据流是混乱的，我不能设置窗口来对数据流中的数据进行排序。Sorting union of streams to identify user sessions in Apache Flink 我得到了答案，但com.liam.learn.flink<

浏览 30提问于2019-01-12得票数 2

1回答

Flink:默认分区/洗牌策略/函数

在默认情况下，Flink使用哪些策略(散列、排序)来减少/分组DataSets (例如，groupBy函数或减少函数)？Flink用于哪些API-函数？在洗牌过程中进行分区默认情况下？

浏览 3提问于2016-03-02得票数 3

回答已采纳

1回答

带有Table和Datastream API的Flink* 1.14中的全局排序*

、

Flink有两个APIs - DataStream和Table --它们可以在batch或streaming执行模式下运行。不建议使用DataSet API。如果我想在批处理模式下对有界数据进行全局排序，orderby的并行性是否仅限于1? flink如何处理大型数据?它是否溢出到磁盘？DataStream API -我没有找到任何显式的API来进行排序。我能想到的唯一方法是使用自定义的函数首先按范

浏览 17提问于2022-04-27得票数 0

回答已采纳

2回答

我可以在同一个DataSet作业中使用Flink接口和DataStream接口吗？

、

我正在使用Flink streaming从Kafka读取数据并处理数据。在应用程序启动时使用Kafka之前，我需要使用DataSet应用程序接口读取一个文件，并根据一些标准对文件进行排序，然后根据它创建一个列表。然后开始以流媒体的方式从Kafka消费。我已经编写了一个逻辑来使用DataSet API从文件中读取数据并对其进行排序。但是，当我尝试调整程序时，它永远不会执行，Flink立即开始使

浏览 23提问于2017-07-12得票数 0

回答已采纳

1回答

pyflink Table api中的Py4JJavaError

、

这段代码将pandas转换为flink表，进行转换后再转换回pandas。(MethodInvoker.java:244) at org.apache.flink.api.python.shaded.py4j.Gateway.in

浏览 102提问于2020-07-16得票数 0

回答已采纳

1回答

Flink Python API Bug

、

我刚刚试用了flink python api。当我尝试的时候：我得到了：该错误是由于以下位置中的路径处理导致的： flink-staging/flink-language-binding/flink-p

浏览 2提问于2015-06-18得票数 2

1回答

Python Flink连接到远程Flink环境

、、、

我让flink系统在远程系统中运行..假设IP为10.XX.XX.XX，端口为6123。现在我想通过RemoteExecution环境从另一个使用Pyflink的系统进行连接。我看过文档https://ci.apache.org/projects/flink/flink-docs-stable/dev/python/table-api-users-guide/table_envir

浏览 58提问于2021-04-08得票数 0

回答已采纳

1回答

python-在运行Flink作业时存档而不是目录异常- PyFlink

、、、、

在运行pyflink应用程序时，我会得到以下异常：我使用(/root/Python3.6/venv.zip)I've虚拟环境在应用程序(t_env.add_python_archive(archive_path="/root/Python3.6/venv.zip", target_dir=None))I'm中使用UDF运行flink作业successfully集存档路径，如果我取出UDF

浏览 22提问于2022-03-16得票数 0

回答已采纳

1回答

使用Python的Kafka Flink

、

我看不到太多关于kafka flink连接器python的信息。我知道它是beta version.can，我使用kafkaflink连接器API，使用python.If是的，给我推荐一个这个连接器的程序。我也提到了Apache Flink: Kafka connector in Python streaming API, "Cannot load user class"，.Also，我可以使用<

浏览 31提问于2020-01-23得票数 0

1回答

排序WordCount输出Flink

、、

我正在努力学习Flink，我正在做基本的WordCount教程。我想知道如何对datastream的输出进行排序，以便它按降序输出计数。我不需要将其保存为文本文件，只需按降序输出到控制台。text.flatMap(new Tokenizer()) .sum(1); 现在，它写入所有计数，没有任何问题，我只想让计数按降序排序

浏览 11提问于2022-04-06得票数 0

回答已采纳

1回答

有界流上的全局窗口的Flink排序

、、、

我已经构建了一个flink应用程序来直接使用Kafka提供的数据，但是如果系统故障或者需要重新处理这些数据，我需要使用S3中一系列文件中的数据。处理消息的顺序是非常重要的，因此我试图在将这些消息推送到我现有的应用程序之前，先弄清楚如何对这个有界的流进行排序。我尝试使用table将流插入一个临时表中，但是排序操作符总是使用最大并行度为1，尽管对两个键进行排序。我能利用这些键来增加这种并行性吗？我一直在考虑使用<

浏览 5提问于2022-02-03得票数 0

1回答

在Apache Flink中使用Python进行分析

、、

有没有办法专门使用Python对flink作业进行分析？据我所知，表api将检索数据，我们只能使用api中的函数来转换数据。我是否遗漏或误解了文档中的任何内容？

浏览 4提问于2020-06-30得票数 0

1回答

如何使用Flink* DataStream api按批量执行模式中的记录字段对数据进行排序？*

、

我需要编写一个批处理的flink作业，我更喜欢使用DataStream api。在中有的替代品吗？我读过说，对于KeyedStream中的数据是按键二进制表示进行排序的，我可以使用这个特性吗？例如，创建一个由我想要排序的字段组成的字符串键？

浏览 6提问于2022-03-28得票数 0

1回答

PyFlink -在JAR中使用Scala UDF的问题

、

我尝试使用外部JAR在Pyflink中注册一个Scala UDF，如下所示，但得到下面的错误。(MethodInvoker.java:244) at org.apache.flink.api.python.shaded.py4j.Gateway.i

浏览 20提问于2020-10-27得票数 1

回答已采纳

1回答

如何在AWS EMR上运行pyflink脚本？

、

我很难在AWS上运行带有apache的基本word_count.py pyflink 成功地创建了AWSEMR6.5.0集群，并使用以下应用程序Flink、Zookeeper验证了flinksudo flink run -m yarn-cluster -yid <application_id> -py /usr/lib/flink/examples/python/table/word_c

浏览 17提问于2022-01-29得票数 2

回答已采纳

2回答

Pyflink表API流组窗口

、、

我正试图在PyFlink中的一个窗口上进行一些聚合。(MethodInvoker.java:244) at org.apache.flink.api.python.shaded.py4j.Gateway.invoke(Gateway.java:13

浏览 15提问于2021-06-17得票数 1

2回答

org.apache.flink.table.api.ValidationException:无法为编写表“default_catalog.default_database.hTable”创建接收器

、、、、

(MethodInvoker.java:244) at org.apache.flink.api.python.shaded.py4j.Gateway.invoke(Gateway.java:282) at org.apache.<e

浏览 73提问于2022-10-21得票数 0

回答已采纳

1回答

排序后的Flink* join运算符似乎对字段进行了分组(Scala)*

、、

我已经使用Flink实现了一个简单的Scala对象，使用joins操作符进行播放。之后，我设置了连接操作符show my result，我决定按第一个字段对输出进行排序。输出似乎是按组排序的。如何对完整的DataSet进行排序？import org.apache.flink.api.common.operators.Order import org.apache.flink.<em

浏览 8提问于2018-03-03得票数 0

回答已采纳

1回答

合并重新平衡的分区

、

作为流媒体应用程序的最后一步，我想对系统中的乱序事件进行排序。为此，我使用： events.keyBy((Event event) -> event.id) .process(new SortFunction())如果我的理解是正确的，那么在这种情况下应该发生什么，如果我错了，应该纠正我的错误，即给定的键(理想情况下是1/3)的每个事件的一部分将转到SortFunction的每个并行实例，在这种情况下，为了有一个完整的排序，我需要创建一个map，或者另一个processFun

浏览 20提问于2019-07-01得票数 0

点击加载更多