腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
哪种情况下使用
合并
和
重新
分区
更好?
scala
、
apache-spark
、
partitioning
我
的
数据被划分为静态数据
分区
和国家动态
分区
数据。因此,每一次约会,我可以有多达180个国家
分区
。看起来是这样
的
: /cntry=ca/ => 500kb对于每个日期,数据都很小(约20-100 it ),并在国家
分区
之间进行划分。再分割还是
合并
?既然
浏览 2
提问于2019-01-17
得票数 0
回答已采纳
1
回答
spark
的
合并
函数是否试图创建大小一致
的
分区
?
apache-spark
我想
平衡
星火中rdds/dataframes
的
分区
大小,以摆脱拖慢我工作
的
散乱任务。我可以使用repartition(n_partition)这样做,它可以创建大小相当一致
的
分区
。但是,我不清楚这个函数是尝试创建大小大致一致
的
分区
,还是简单地
合并
输入
分区
,而不考虑它们
的
大小。支持
合并
的
算法是否知道
合并
两个小
分区
(因为它
浏览 2
提问于2016-12-08
得票数 1
1
回答
合并
重新
平衡
的
分区
apache-flink
、
flink-streaming
作为流媒体应用程序
的
最后一步,我想对系统中
的
乱序事件进行排序。,那么在这种情况下应该发生什么,如果我错了,应该纠正我
的
错误,即给定
的
键(理想情况下是1/3)
的
每个事件
的
一部分将转到SortFunction
的
每个并行实例,在这种情况下,为了有一个完整
的
排序,我需要创建一个map,或者另一个processFunction,它从3个不同
的
实例中接收排序
的
事件,并将它们
合并
在一起。如果是这样的话,
浏览 20
提问于2019-07-01
得票数 0
2
回答
不按排序排序。
apache-spark
、
apache-spark-sql
对于生成
的
文件,大小约为10G ~ 15G (30M记录),较小
的
约为500 m~750 m (1.5M记录)。两个结果文件都面临以下问题: 在执行“
重新
分区
”以将结果
合并
到单个文件之后,我为dataframe调用了“排序”方法。然后我检查生成
的
文件,发现在记录排序
的
间隔内,但是整个文件不是全局排序
的
。如果这种现象真的是由
重新
分区
操作造成
的
,那么有人能帮助我在不将数据转换为RDD
的
浏览 2
提问于2016-06-17
得票数 5
回答已采纳
1
回答
合并
()是如何在火花内部工作
的
?
apache-spark
我正在探索聚合()函数,我有几个问题没有得到回答: 是只在executor中移动数据,还是将分布在多台机器上
的
数据
分区
移动?如果它只是执行器级别,那么在这种情况下,如果每台机器只有一个
分区
,并且在三个节点上有3个
分区
,则
合并
()是如何工作
的
?如何
合并
(1)?当我在数据帧上运行coalesce()函数时,它创建了一个500 MB
的
输出文件和一个1.2 GB文件
的
输出文件,为什么会有如此巨大
的
差异?我知道coalesce
浏览 4
提问于2021-06-10
得票数 0
1
回答
如何知道何时
重新
分区
/
合并
RDD与不
平衡
的
分区
(不可能洗牌)?
apache-spark
我正在为我
的
火花工作从s3加载数以万计
的
压缩文件。这会导致一些
分区
非常小(10s记录)和一些非常大
的
分区
(1000个记录)。
分区
的
大小在节点之间分布得很好,因此每个执行器似乎都在处理相同数量
的
聚合数据。所以我不太确定我是否有什么问题。 我如何知道是否值得
重新
划分或
合并
RDD?这两种方法中
的
任何一种都可以
平衡
分区
而不需要调整数据吗?另外,RDD不会被重用,只需映射到
浏览 1
提问于2015-11-03
得票数 7
回答已采纳
1
回答
KafkaConsumer#pause是否会影响当前对投票
的
调用?
java
、
apache-kafka
、
kafka-consumer-api
如果我设置了我自己
的
重新
平衡
侦听器,并且在onPartitionsAssigned内部调用consumer.pause(partitions),那么当前对poll
的
调用(从其中调用该
重新
平衡
侦听器)会返回任何记录吗编辑:挂起从请求
的
分区
获取。将来对轮询(Long)
的
调用将不会从这些
分区
返回任何记录,直到使用简历(Collection)恢复这些记录为止。请注意,此方法不影响
分区</em
浏览 5
提问于2020-09-04
得票数 1
2
回答
手动/分配
分区
情况下
的
kafka消费者
重新
平衡
apache-kafka
我对再
平衡
有一些怀疑。现在,我正在手动将
分区
分配给使用者。因此,根据文档,在消费者离开/崩溃
的
情况下,不会在消费者组中进行
重新
平衡
。假设在同一组中有3个
分区
和3个使用者,每个
分区
都手动分配给每个使用者。过了一段时间,第三个消费者宕机了。由于没有
重新
平衡
,我可以采取哪些措施来确保最短
的
停机时间?我是否需要更改前两个
分区
中
的
任何一个
分区
的
配
浏览 0
提问于2019-02-12
得票数 0
1
回答
Kafka流:再
平衡
发生时处理器对象发生了什么
apache-kafka
、
apache-kafka-streams
当
重新
平衡
发生时,处理器对象是否被
重新
初始化并再次调用init方法? ( 2)对于整个Kafka流,是否是特定于
重新
平衡
分区
(单个应用程序具有多个线程占用不同
的
分区
),还是因为它是一个流状态?
浏览 5
提问于2020-03-03
得票数 1
2
回答
当一个
分区
被移动到一个新
的
节点时,是否有停机时间?
azure-service-fabric
Service Fabric提供了每当节点被移除或添加到集群时
重新
平衡
分区
的
功能。Service群集资源管理器将将一个或多个
分区
移动到此节点,以便完成更多
的
工作。假设有一个可靠
的
参与者服务,其中有数千个正在运行
的
角色,它们分布在多个
分区
。如果资源管理器决定移动一个或多个
分区
,这会导致停机吗?还是
重新
平衡
分区
的
工作方式与升级服务一样?
浏览 0
提问于2018-07-06
得票数 0
回答已采纳
1
回答
领导人选举时
的
客户再
平衡
apache-kafka
我有一个定制
的
kafka设置,我
的
应用程序和kafka代理放在一个节点中。 为了确保app实例只使用该节点中
的
分区
(以减少网络开销),我将一个自定义
分区
分配给组
的
所有成员。然而,如果代理失败,然后
重新
加入集群,这会引发消费者再
平衡
吗?类似地,如果我添加一个新代理并触发
分区
重新
分配脚本,这也会触发
重新
平衡
吗?
浏览 1
提问于2020-10-20
得票数 1
回答已采纳
1
回答
如何配置kafka集群在停止和重启broker后
重新
选举
分区
领导
的
时间?
apache-kafka
、
apache-zookeeper
我有以下设置:1个主题,12个
分区
和3个副本(因此每个kafka broker是4个
分区
的
领导者) 我停止了其中一个代理-它从集群中删除,其
分区
的
领导权转移到剩下
的
两个代理我
重新
启动了代理-它
重新
出现在集群中,最终领导权
重新
平衡
,因此每个代理都是4个
分区
的
领导者。它工作得很好,除了我发现
重新
平衡
之前花费<em
浏览 3
提问于2016-02-03
得票数 6
1
回答
火花作业似乎不能很好地并行化。
hadoop
、
bigdata
、
apache-spark
、
google-hadoop
使用Spark1.1 创建一个不同请求ids
的
列表。将此列表与基于请求id
的
建议列表作为键连接,从而实现我们想要
的
筛选。然后将减少
的
列表
浏览 1
提问于2014-11-19
得票数 0
回答已采纳
1
回答
如何在新增
分区
的
kafka主题中均衡消息
apache-kafka
、
kafka-consumer-api
、
kafka-producer-api
我有一个kafka集群,其中包含
的
特定主题
分区
太少,因此收集了大量积压
的
消息。在我添加额外
的
分区
后,只有新
的
消息在所有新
的
分区
之间
平衡
。
平衡
所有新
分区
中原始
分区
中
的
“旧”消息积压
的
首选方法是什么? 我想
重新
读取和写入所有消息,并相应地更新偏移量,但如果新
的
消费者组将从该主题
的
开头开始消费,则会
浏览 10
提问于2019-01-27
得票数 1
1
回答
在Kafka中,针对每个主题
的
多个
分区
的
一个使用者线程会导致延迟吗?
apache-kafka
、
kafka-consumer-api
我们
的
kafka设置如下: 我们将这种方式配置为能够在未来扩大规模。当我们需要通过添加
分区
来扩展时,我们希望最小化我们
重新
平衡
的
时间,因为延迟对我们非常重要,在
重新
平衡
的
过程中,消息可以一直保持到协调阶段完成为止。在每个主题中有一个包含多个
分区
的
使用者线程,会以某种方式影响整个消息传递消耗延迟?
浏览 2
提问于2019-01-21
得票数 1
回答已采纳
1
回答
最后
分区
的
火花转换非常慢
scala
、
apache-spark
、
distributed-computing
、
rdd
我正在运行一个迭代算法,在每次迭代期间,每个值
的
列表都分配一组键(1到N)。随着时间
的
推移,文件在密钥上
的
分布变得倾斜。我注意到,经过几次迭代,
合并
阶段,在我
的
RDD
的
最后几个
分区
上,事情似乎开始运行得非常缓慢。我
的
转变如下: .mapValues(...)
浏览 2
提问于2016-01-17
得票数 1
1
回答
在
重新
划分时触发OutOfMemory
apache-spark
我与星火中
的
OutOfMemory异常做斗争,这个异常是在
重新
分区
时抛出
的
。之后,我们希望对相同数据描述
的
所有统计信息进行分组,并将它们
合并
。
合并
时,我们得到一个OutOfMemory。因此,我们插入了一个
重新
分区
,内存也耗尽了。包括flatMapToPair在内
的
所有阶段都能正常工作。我们为
分区
尝试了不同
的
值,直到我们有多达5000项任务时,大多数任务几乎没有什么工作要
浏览 1
提问于2017-12-22
得票数 0
回答已采纳
1
回答
是否有可能“平均”
合并
星火
分区
?
apache-spark
、
pyspark
、
partitioning
假设我们有一个PySpark数据,数据均匀地分布在2048个
分区
上,我们希望
合并
到32个
分区
,将数据写回HDFS。使用coalesce是好
的
,因为它不需要昂贵
的
洗牌。但是coalesce
的
缺点之一是它通常导致数据在新
分区
之间
的
不均匀分布。我假设这是因为原始
分区
ID被散列到新
的
分区
ID空间,并且冲突
的
次数是随机
的
。但是,原则上应该可以平均
合并
,这样
浏览 2
提问于2018-06-14
得票数 3
回答已采纳
2
回答
当一个消费者宕机/崩溃时,Kafka消费者行为
apache-kafka
、
kafka-consumer-api
、
jvm-crash
我
的
主题有115个
分区
和大约130个消费者。我预计115个消费者处于活动状态(一对一分配),其余15个消费者处于空闲状态。 有几次,我观察到高内存和JVM处于挂起状态,这是由于触发了
重新
平衡
。但是,我不确定这是否会导致完全
重新
平衡
(即健康
的
节点分配也会发生变化??)或者只将失效节点
的
已分配
分区
分配给其中一个空闲节点?此外,在应用程序重启
的
情况下(我
的
应用程序是每个JVM
的
分布式单线
浏览 16
提问于2018-11-30
得票数 1
2
回答
如果卡夫卡消费者
的
例子死了会发生什么?
apache-kafka
、
kafka-consumer-api
、
partition
Kafka Broker有3个
分区
。 我想知道这样
的
假设是否正确:另一个实例使用它最初使用
的
所有
分区
,然后分配和使用死
分区
。
浏览 3
提问于2017-05-17
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
删除分区再重新分区的好方法!
表的合并及分区
如何正确的给硬盘重新分区!
怎么把已经分区的硬盘合并?2个实用分区方法分享给你
阿尔特曼表示 OpenAI 正重新考虑公司结构,寻求盈利与非营利间的平衡
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券