腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
具有
键控
状态
的
自定义
分区
、
我有自己
的
分区
技术,可以为DataStream元组生成键,这些键
的
范围等于集群中
的
节点数量,比如如果我将并行度设置为4,生成
的
键将是0,1,2和3,依此类推,然后每个键都应该
分区
到相同
的
节点,以便使用
键控
状态
进行更多
的
键控
处理发生了什么:我使用keyBy实现了我
的
逻辑,所以我可以使用
键控
状态
,但它存在很大
的
不对称性,一些节点没有
浏览 4
提问于2019-10-27
得票数 1
1
回答
Flink
状态
后端密钥
的
原子性和分布
例如,考虑一个由keyby->平面映射(包含映射
状态
)组成
的
图,并将并行性设置为
具有
4个任务槽
的
1,flink是否确保每个键在分布式环境中只存在一次(在一个任务槽中),它是原子单元吗?您可以将
键控
状态
视为已
分区
或分块
的
运算符
状态
,每个键只使用一个
状态
分区
。每个键
状态
在逻辑上都绑定到<parallel-operator-instance, key>
的</em
浏览 4
提问于2017-08-17
得票数 1
回答已采纳
1
回答
在无键Flink流中执行良好平衡
的
并行性
、
、
根据我对Flink
的
理解,介绍了基于键(键组)
的
并行性。然而,假设一个人有一条巨大
的
没有钥匙
的
小溪,并且希望并行地完成这项工作,那么实现这一目标的最佳方法是什么?如果流中有一些字段,您可能会考虑按某个字段按键,但是这并不保证工作负载将得到适当
的
平衡。例如,因为该字段中
的
一个值可能发生在90%
的
消息中。因此,我
的
问题是: 我可以想到
的
浏览 0
提问于2020-06-28
得票数 2
回答已采纳
1
回答
Kafka处理器API:源和StateStore
的
不同密钥?
、
我们
的
第一种方法是创建一个
具有
连接
状态
存储
的
处理器,它使用相关ID作为密钥存储每个传入消息。这使我们能够查询存储中传入消息
的
相关ID,如果存储中已经有
具有
相同ID
的
消息,则可以组合信息、转发新事件并从存储中删除条目。国家密钥
状态
值 { event: { deviceId: "...", correlationId: "...源主题和
状态</em
浏览 1
提问于2018-04-18
得票数 7
回答已采纳
1
回答
KeyBy None for KeyedState
、
、
由于mapWithState只是Scala
的
语法糖,所以我尝试注册处理keyBy
的
常用
状态
,但是,我不知道如何处理keyBy。 在这种情况下,流只是时间戳和数字
的
时间序列元组。我尝试按时间戳、标量和两者进行
键控
,以强制将流转换为keyedStream,这样我就可以像最初
的
示例一样使用
键控
状态
。结果是,在接下来
的
步骤中,如果我正确理解的话,注册
状态
将始终为NULL,这将是有意义
的
,因为键始终是唯一<e
浏览 5
提问于2020-06-14
得票数 0
回答已采纳
1
回答
是否可以为每个子任务/
分区
设置一个窗口
、
我正在使用来自
具有
多个
分区
的
Kafka主题
的
数据来处理Flink。有没有可能在每个并行子任务/
分区
上都有一个窗口,而不必使用keyBy (因为我想避免混乱)。根据文档,我只能在
键控
窗口(需要混洗)或全局窗口(将并行度降低到1)之间进行选择。 这样做
的
动机是,我希望使用CountWindow来批处理
具有
自定义
触发器
的
消息,该触发器也会在设置
的
处理时间后触发。因此,对于每个Kafka
分
浏览 25
提问于2021-01-22
得票数 0
1
回答
键控
流是否在进程函数之后不被
键控
?
、
假设我在一个
键控
过程之后得到了一个流。DataStream<T> stream= sourceStream.keyBy(key).window(window).apply(function); 结果流是否仍然是
键控
的
?我能在那个流中使用一些关键
的
状态
吗?
浏览 3
提问于2021-03-21
得票数 2
回答已采纳
1
回答
Apache中
的
DataStream和KeyedStream有什么区别?
、
、
我在使用Flink连接两个流
的
上下文中查看,并希望了解这两个流之间
的
区别以及影响Flink处理它们
的
方式。作为一个相关
的
问题,我还想了解CoProcessFunction与KeyedCoProcessFunction有何不同。
浏览 2
提问于2021-02-17
得票数 1
回答已采纳
1
回答
如何在Apache中使用大文件丰富事件流?
、
、
该应用程序由Kafka作为事件源、一个映射函数和一个接收器组成,如下图所示:我想丰富来自卡夫卡
的
原始事件中基于userIp字段
的
用户IP位置
的
输入点击流数据。JVM堆已达到3.5GB,由于广播
状态
,无法将广播
状态
放入磁盘(对于RocksDb) 2.解决方案:在open()方法中加载CSV数据,在RichFlatMapFunction中进入
状态
(ValueState结果:由于堆中存储
的
数据非常大,无法加载到ValueState中。此外,通过ValueState
浏览 2
提问于2020-03-18
得票数 2
2
回答
ProducerStream仅生成到单个
分区
、
我正在尝试向
具有
2个
分区
的
单个主题生成一些消息。所有消息都将只发送到2号
分区
。我希望生产者流会跨所有
分区
分发消息。
浏览 16
提问于2020-01-07
得票数 0
2
回答
keyBy是否在Flink (scala)中跨并行任务对DataStream进行
分区
?
、
、
、
、
我想对Flink中
的
一个输入数据流应用ProcessFunction(),用一个缓存对象处理每个传入
的
元素。我
的
代码看起来像这样: object myJob extends FlinkJob { //Collect updated event } } } 当我并行化这个作业时,我假
浏览 41
提问于2019-04-05
得票数 0
回答已采纳
2
回答
消息到
分区
分配、排序和
分区
编号调整
正如我所理解
的
,如果我在我
的
主题中使用
键控
消息,kafka
分区
器将始终以相同
的
键向同一个
分区
发送消息,这将确保对特定消息集
的
排序。此外,默认
分区
程序将根据该特定主题可用
的
分区
数量,最初作出向哪个
分区
发送消息
的
决定。有点像messageKeyHash % numberOfPartitions。我
的
问题是,如果我有一个关于5
分区
的
主
浏览 5
提问于2017-06-29
得票数 0
回答已采纳
2
回答
访问processBroadcastElement函数内部
的
闪烁
状态
我将在processBroadcastElement()函数中执行一些
状态
管理。getRuntimeContext.getMapState(actvTagsMapValue)} 在访问
状态
期间获取以下错误
浏览 153
提问于2021-04-12
得票数 1
回答已采纳
1
回答
Kafka流1.0为线程分配
分区
、
我使用
的
是Kafka流,
具有
无
状态
的
简单处理器拓扑。我有一个逻辑约束,即一旦一个线程连接到一个
分区
或更多
的
分区
,它就应该继续处理这些
分区
(当然,直到重新启动时,它会重新洗牌)。我
浏览 0
提问于2018-03-19
得票数 1
回答已采纳
1
回答
Apache Flink -如何对齐Flink和Kafka切分
、
、
我正在为一个大容量流用例(每秒数以千万计
的
事件)开发一个DataStream-based Flink应用程序。这些数据是从卡夫卡主题中消耗
的
,并且已经根据特定
的
键进行了切分。我
的
意图是在Flink端创建特定于键
的
状态
,以运行
自定义
分析。我无法解决
的
主要问题是,如何创建
键控
状态
,而不对keyBy()强加
的
传入数据进行重新配置。我可以保证Flink作业
的
最大并行性将小于或等于源Kafk
浏览 4
提问于2022-08-08
得票数 2
回答已采纳
1
回答
沉入目的地后
的
过程元素
、
我正在建立一个从Kafka到HDFS
的
flink管道。我想在addSink()步骤之后处理这些元素。这是因为我希望设置触发器文件,指示为某个
分区
/小时编写数据(到接收器)已经完成。如何才能做到这一点?DataStream messageStream = env .addSource(flinkKafkaConsumer011); KeyedStream.addSink
浏览 0
提问于2019-01-08
得票数 1
2
回答
Flink运算符中
的
内存查找
我有一个流收集和处理
的
Flink应用程序。该应用程序由Kafka作为事件源、协同映射函数和Kafka接收器组成,如下图所示:我想用CSV文件中
的
一些字段丰富Kafka输入
的
流。我还希望定期刷新配置磁盘位置
的
csv文件。此外,在配置
的
间隔之后,继续从文件源重新加载数据。我对这个设计有以下
的
关注: 是否可以暂停对Kafka主流
的
处
浏览 1
提问于2022-02-19
得票数 0
1
回答
如何在flink
的
相同插槽上按某个键聚合数据,以便节省网络调用
、
到目前为止,我
的
flink作业在客户端id上执行KeyBy,并使用窗口操作符累积1分钟
的
数据,然后聚合数据。聚合后,我们将这些累积
的
数据存入hdfs文件中。问题是,当我们执行keyBy时,它在集群上分发数据(我
的
假设),但我希望数据在传入事件
的
相同插槽(或节点)上聚合1分钟。 注意:在接收器中,我们可以在1分钟
的
窗口内为同一客户端提供多个数据。
浏览 0
提问于2020-11-12
得票数 0
1
回答
编写基于flink-cep
的
事件分组模式。
、
我们使用flink-cep作为一个独立
的
库来查找事件列表中
的
模式。mapOf(patientKey to 3, hr to 2))我们想要编写一个以匹配
的
形式返回
的
模式:第二场比赛: p2e1,p2e2,p2e3因此,在有键流
的
flink环境中运行CEP似乎是可行
的
浏览 9
提问于2022-10-17
得票数 0
1
回答
利用输入
分区
来避免任务管理器之间
的
通信。
、
、
我们有一个Flink管道,通过将数据与相同
的
键("client-id")结合在同一个窗口中,聚合每个“客户端”
的
数据。这个问题是微不足道
的
并行性
的
,并且输入Kafka主题有几个
分区
(与Flink并行性相同
的
数字)--每个
分区
都包含一个客户端
的
子集。也就是说,一个客户端总是在一个特定
的
Kafka
分区
中。,如果后者是真的--我们能以某种方式避免重组,并按照输入
分区
分配
的</e
浏览 5
提问于2021-11-05
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Shopify自定义订单状态页面:Shopify后台订单页面怎么查看客户订单的状态?
Windows无法安装到这个磁盘,选中的磁盘具有MBR分区表的解决方法
Flink 支持哪些状态管理方式?
fabric1.4为何选择couchDB作为数据库
大数据入门:Flink状态编程与容错机制
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券