腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如何
对
flink
表
而
不是
流
执行
setParallelism
就像标题一样,当我只在我的
流
应用程序中使用DataStream应用程序接口时,我使用了很多
setParallelism
。最近我发现在我的场景中使用
表
API更好,因为它可以统一批处理/
流
应用程序,这些应用程序通常必须是两个不同的,只使用不同的dataset/数据
流
API就可以节省大量重复的代码。但是当我尝试将我的
流
应用程序移植到
表
API时。我发现
表
不支持
setParallelism
。 我必须像这样通过我的定制API来
浏览 11
提问于2019-09-02
得票数 0
1
回答
如何
在
flink
应用程序中指定两个源,一个进程运算符和一个接收器运算符
我使用的是
flink
1.3,我已经定义了两个
流
源,它们将发出相同的事件由后续操作符处理(我定义的进程操作符和接收器操作符) .name("source1") .
setParallelism
(4).addSink(new MySink(
浏览 2
提问于2020-08-01
得票数 0
回答已采纳
1
回答
Flink
中并行性和多个应用程序的区别
、
我计划动态缩放一个
Flink
应用程序。该应用程序使用kafka-
flink
连接器消耗来自Kafka的事件。因为应用程序的“热身”只需几分钟(缓存.)
而
改变并行级别涉及重新启动,我更喜欢提交(放大)或交替杀死(缩小)任务,
而
不是
改变并行级别。我想知道,从性能、逻辑和
执行
计划来看,这种方法和
Flink
内置的并行
执行
有什么不同吗?换句话说,10个相同的
Flink
任务与一个并行级别= 10的任务( env.
setParallelism
浏览 1
提问于2019-09-25
得票数 0
回答已采纳
2
回答
Flink
从GenericRecord
流
生成动态
流
、
、
、
、
我有一个用例,当我们在模式注册
表
中为主题起诉TopicRecordNameStrategy时,在单个Kafka主题中有多种类型的Avro记录。现在,我已经编写了一个使用者来阅读该主题并构建一个GenericRecord数据
流
。现在,我不能将此
流
汇到parquet格式的hdfs/s3中,因为此
流
包含不同类型的模式记录。因此,我通过应用过滤器并创建不同的
流
,然后分别下沉每个
流
,为每种类型过滤不同的记录。2.我必须通过filter和all创建多个
流
。 所以请建议我,
浏览 69
提问于2020-02-21
得票数 1
回答已采纳
2
回答
Flink
CEP
不是
确定性的
、
当我在一个大型输入流上运行它时,如果我知道
流
中存在一定数量的事件,我会得到一个不一致的检测到的事件计数,几乎总是少于系统中的事件数量。如果我
执行
env.
setParallelism
(1) (就像我在代码的第3行中所做的那样),那么所有的事件都会被检测到。我假设问题是当并行度大于1时,多个线程正在处理来自流的事件,这意味着当一个线程具有event(val=1) -> event(val=2)时,event(val=3)可能会被发送到另一个线程,
而
整个模式可能无法检测到我是
不是
漏掉了什么?我不能丢失<e
浏览 0
提问于2016-08-10
得票数 2
1
回答
如何
增加
Flink
taskmanager.numberOfTaskSlots以在没有
Flink
服务器的情况下运行它(在集成开发环境或fat jar中)
、
、
我有一个关于在IDE中运行
Flink
流
作业或作为fat jar运行
而
不将其部署到
Flink
服务器的问题。 kafkaProperties.setProperty("group.id", "test"); DataStream<
浏览 16
提问于2018-07-19
得票数 5
回答已采纳
2
回答
Apache API没有mapPartition转换
Spark有mapPartition API,
而
Flink
DataStream API没有。有谁能帮助解释原因吗?我想要做的是在
Flink
上实现一个类似于星火reduceByKey的API。
浏览 2
提问于2015-10-28
得票数 7
回答已采纳
3
回答
Apache在Spark/
Flink
上
对
批处理有什么好处?
、
、
支持多个运行程序后端,包括Apache和
Flink
。我很熟悉Spark/
Flink
,我正试图看到Beam批量处理的利弊。从的角度来看,它觉得它非常类似于本机Spark/
Flink
的等价物,可能有一个稍微冗长一些的语法。 Con:这种抽象的代价是减少了
对
在Spark
浏览 4
提问于2017-04-24
得票数 108
回答已采纳
1
回答
Flink
SQL行为
、
、
我想
对
批处理数据
执行
Flink
SQL。(S3中的CSV)例如,我的查询包括
对
两个
表
进行筛选和加入筛选的结果。我希望
Flink
不要以阻塞批处理的方式实现这两个
表
,然后通过join传递结果,而是使用
流
哈希连接操作符,就像datastream中的那样。 我怎样才能做到这一点?我正在使用PyFlink。
浏览 6
提问于2022-04-02
得票数 1
1
回答
在
Flink
DataSet上应用多个连接的分区策略
、
、
我正在使用
Flink
1.4.0。,并
不是
每个xlabels中都存在所有的评级键。另一个附带的问题是,设置为1的第一个.
setParallelism
在
执行
管道的其余部分方面是否具有限制性,即后续.
setParallelism
(N)能否改变DataSet的处理方式?根据
Flink
文档为v.1.4.0 REPARTITION_SORT_MERGE:系统分区(洗牌)每个输入(除非输入已经被分区),并
对
每个输入进行排序(除非已经排序)。输入由排序输入的
流
合并
浏览 0
提问于2018-03-02
得票数 2
回答已采纳
1
回答
如何
从worker节点收集结果并在intellij中打印?
print()将结果保存在集群中随机节点的随机任务管理器中,有办法收集这些结果并打印在intellij的控制台窗口中吗?
浏览 1
提问于2020-09-28
得票数 0
回答已采纳
1
回答
Apache
表
1.4:
表
上可能有外部SQL
执行
吗?
、
、
是否可以在外部查询现有的StreamTable,
而
不上传.jar获取
执行
环境和检索
表
环境?由于Apache
表
1.4的动态(连续)
表
特性,我一直在等待它的发布。我期待其他的东西,我认为在运行时修改
表
并修改它的参数是可能的。为了
执行
一些活动查询,
而
不是
在数据
流
之上定义(连续的或仅附加的)数据库视图。我知道我可以将我的
表
导出到一些数据库中,并使用SQL动态查询这个数据库,但这是一种尴尬的行为。
Fl
浏览 5
提问于2017-10-25
得票数 2
回答已采纳
1
回答
Flink
KeyedProcessFunction排序
、
我
对
Flink
很陌生,并试图了解
Flink
命令
如何
在并行性下的processElement()抽象中调用KeyedProcessFunction。考虑这个产生部分和
流
的例子: import org.apache.
flink
.api.common.state.import org.apache.
flink
.streaming.api.scala.val env: StreamExecutionEnvironment = StreamExec
浏览 2
提问于2021-04-14
得票数 1
回答已采纳
1
回答
Flink
内存耗尽
、
我有一些相当简单的
流
代码,可以通过时间窗口聚合数据。窗口位于较大的一边(1小时,有2小时的限制),
流
中的值是来自数百个服务器的度量。我一直没有内存,所以我添加了RocksDBStateBackend。这两个后端从未将任何数据写入磁盘,
而
只是使用JobID创建了一个目录。我在独立模式下运行这段代码,
而
不是
部署。.addSink(new MetricStoreSinkFunction(parameters, "mean")) .name("hourly mean stre
浏览 1
提问于2018-03-14
得票数 1
回答已采纳
1
回答
如何
在
Flink
表
API中加入两个数据
流
和滑动窗口函数?
、
、
、
、
我有两个来自两个Kafka主题的
流
表
,我想加入这些
流
并
对
所连接的数据
执行
聚合功能。需要使用滑动窗口连接
流
。TIMESTAMPDIFF(SECOND, ep.event_
flink
_time, cep.event_
flink
_time) as timediff, HOP_START (cep.event_
flink
_time, INTERVAL '5' MINUTES, INTERVAL '10
浏览 25
提问于2022-05-24
得票数 0
1
回答
Apache将
流
划分为输入Kafka主题相同
、
、
、
、
我想在Apache中实现以下场景:考虑到有4个分区的Kafka主题,我想使用不同的逻辑在
Flink
中独立地处理分区内的数据,这取决于事件的类型。在
Flink
中,我想根据事件应用不同的业务逻辑,所以我认为应该以某种方式分割
流
。也是这样,如果我想并行处理每个
Flink
分区,因为我只想按顺序处理按同一个Kafka分区排序的事件,
而
不是
全局地考虑它们,那么(b)我
如何
处理?我知道
setParallelism
()方法的存在,但我不知道在这个场景中应用
浏览 2
提问于2020-10-03
得票数 2
回答已采纳
1
回答
如何
理解
Flink
中的
流
表
?
、
、
、
对
我来说,很难理解
Flink
中的
流
表
。我可以理解Hive,将一个固定的静态数据文件映射到一个“
表
”,但是
如何
体现一个建立在
流
数据之上的
表
呢?例如,每1秒就有5个具有相同结构的事件被发送到Kafka
流
:{"num":2, "value": "b"} ....构建在它们
浏览 2
提问于2020-10-29
得票数 0
回答已采纳
1
回答
使用
FLINK
将JSON接收到Kafka的最快方法
、
、
、
码优化如果我只是
执行
处理->,我可以通过这个函数运行大约30,000个字符串,但是当我添加函数将其转换为STring,然后将其转换为kafka时,我的吞吐量下降到每秒17,000个字符串如果
不是
的话,我该
如何
将一个json ObjectNode放进卡夫卡呢? 还有什么其他的解决办法。我认为瓶颈是to字符串函
浏览 1
提问于2019-01-30
得票数 0
回答已采纳
2
回答
Apache
Flink
:
setParallelism
()和setMaxParallelism()有什么区别?
、
我尝试使用ExecutionConfig.setMaxParallelism()方法为
Flink
作业设置最大并行度,但似乎不起作用。setMaxParallelism()是
如何
工作的?
浏览 17
提问于2019-02-07
得票数 1
1
回答
flink
1.6流式处理非窗口左外部联接顺序错误
Streaming non window left outer join是
flink
1.6中的一个新特性。当我在两个动态
表
之间
执行
此操作时。join结果顺序错误。
如何
正确使用此功能?这两个动态
表
都是按data_update_time排序。NonWindowJoin左
表
的状态和右
表
的状态都使用
flink
托管状态MapState。当我查看
flink
的non window join代码时。我搞混了:(1) MapState的关键字是Row
浏览 1
提问于2018-10-12
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
flink handbook-flink数据流编程模型
从Storm到Flink:大数据处理的开源系统及编程模型
Flink:动态表上的连续查询
Flink概念:编程模型上
基于Flink+Hive构建流批一体准实时数仓
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券