腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(5794)
视频
沙龙
3
回答
随着
分区
的
增加
,
spark
拼接
写入
变慢
、
、
我有一个火花流应用程序,从流
写入
拼花数据。SaveMode.Append).partitionBy("event_date", "event_hour","verb").parquet(Config.eventsS3Path) 这段代码每小时运行一次,但是
随着
时间
的
推移,写到parquet
的
速度
变慢
了。刚开始
的
时候,
写入
数据需要15分钟,现在需要40分钟。对于该路径中存在数据,这需要一定
的
时间
浏览 3
提问于2016-09-16
得票数 15
1
回答
拼图文件:达到最小容量
的
最佳文件数量是多少
、
我用
spark
写了一个数据帧到一个拼图文件中,这个文件在HDFS上有100个子目录(每个子目录包含一个文件)。此文件大小为100 has。当我将数据帧重新
分区
到10个
分区
并将其
写入
HDFS时,输出
拼接
文件
的
大小
增加
到大约200 of。为什么会发生这种情况?
写入
拼图文件时,最佳
分区
数是多少?我
的
问题不同于this question,我认为它不是重复
的
。这个问题可能回答了我问题
的
第一部
浏览 16
提问于2019-06-17
得票数 0
1
回答
使用
Spark
和Alluxio管理S3
的
文件大小
、
、
、
我使用
Spark
在Alluxio中
写入
数据,使用UFS作为S3,使用Hive
拼接
分区
表。我在Alluxio中使用配置单元
分区
字段上
的
重
分区
函数来提高写操作
的
效率。这会导致在Alluxio中创建单个文件,即在S3中为
分区
组合创建单个对象。虽然Alluxio具有使用S3
的
偏移量以字节为单位读取数据
的
功能,但最终它会缓存来自S3
的
整个文件/对象。如果文件大小
增加</em
浏览 8
提问于2019-07-02
得票数 1
2
回答
Cassandra
写入
性能与关系型数据库
、
我正在尝试掌握Cassandra和关系数据库之间
的
一些性能差异。此外,据我所知,当表/
分区
变得更大时,关系数据库
的
更新会
变慢
。这是因为必须执行全表扫描来定位行,或者需要执行索引查找,并且
随着
表或
分区
的
增长,这两种操作
浏览 1
提问于2011-05-29
得票数 1
回答已采纳
2
回答
将新数据追加到已
分区
的
拼图文件
、
、
、
我正在编写一个ETL进程,我需要每小时读取一次日志文件,对数据进行
分区
,然后保存它。我正在使用
Spark
(在Databricks中)。日志文件是CSV,所以我读取它们并应用模式,然后执行转换。我
的
问题是,如何将每个小时
的
数据保存为拼图格式,并附加到现有的数据集?保存时,我需要按数据帧中存在
的
4列进行
分区
。如果目标不存在,那么我不会附加我
的
文件。 我尝试过使用.mode("append"),但我发现
Spark
有时会中途失败,所以我最
浏览 0
提问于2016-01-22
得票数 18
2
回答
spark
写入
拼花面板文件。如何指定行组大小?
、
、
、
我正在努力寻找如何在
Spark
API中指定拼图文件
写入
器
的
行组大小。我发现有一种方法可以做到这一点,那就是使用具有此选项
的
快速
拼接
python模块:write具有参数: row_group_offsets预先感谢您<em
浏览 5
提问于2017-10-25
得票数 1
2
回答
随着
表
的
增长,
写入
分区
的
Hive表需要更长
的
时间
、
、
、
、
我使用
Spark
2.4.4来
写入
一个2级
分区
的
外部hive表(HDFS上
的
格式为parquet ):PARTITIONED模式相当复杂(有许多嵌套
的
数组和结构)。当我插入到该表中时:IO花费
的
时间
随着
每个作业
的
增加<
浏览 0
提问于2021-01-13
得票数 2
1
回答
使用重复
的
键(没有三种方式
的
分区
),快速排序会变得更快。怎么一回事?
、
、
、
我一直在尝试测试快速排序,一切似乎都很好,除了,当我有许多重复
的
数组元素,我是一个意外
的
结果。 100万元素(0-2范围):118毫秒 3000万元素(范围0~100万):3
浏览 0
提问于2018-11-18
得票数 1
回答已采纳
3
回答
dataframe.repartition(x)是否使执行速度更快?
、
这就是代码
的
样子:df_ods =
spark
.read.csv(File, header=True, sep=";")df_ods.repartition(25).write.format("parquet").mode("OverWrite").save("AnotherLocationInS3") 我
的
问题是:重新
分区
参数我应该
增加<
浏览 3
提问于2020-03-04
得票数 1
回答已采纳
1
回答
Spark
:
写入
DynamoDB,
写入
容量有限
、
、
我
的
用例是从
Spark
应用程序
写入
DynamoDB。由于我对DynamoDB
的
写入
容量有限,并且不想因为成本问题而
增加
它,我如何将
Spark
应用程序限制为以规定
的
速度
写入
?这可以通过将
分区
减少到1然后执行foreachPartition()来实现吗请建议其他方法处理此问题。编辑:当
Spark
应用程序在多节点EMR集群上运行时,需要实现
浏览 1
提问于2018-05-18
得票数 2
1
回答
Pyspark dataframe
拼接
vs.增量:不同
的
行数
、
、
、
我在HDFS上以Delta格式
写入
了数据。据我所知,Delta正在以
拼接
的
形式存储数据,只是在它上面
增加
了一个具有高级功能
的
层。但是,当使用Pyspark读取数据时,如果使用
spark
.read.parquet()或
spark
.read.format('delta').load()读取dataframe,我会得到不同
的
结果 df=
spark
.read.format('delta').load(
浏览 28
提问于2021-01-27
得票数 1
回答已采纳
1
回答
对少于N个
分区
的
N个文件
的
磁盘进行
spark
写入
、
我们可以写数据到100个文件,每个文件有10个
分区
吗? 我知道我们可以使用repartition或coalesce来减少
分区
数量。但我看到一些hadoop生成
的
avro数据
的
分区
数量远远超过了文件数量。
浏览 11
提问于2018-01-08
得票数 8
回答已采纳
1
回答
处理表
的
大部分时,Cassandra
分区
大小与
分区
计数
、
、
、
我正在尝试设计一个
分区
键,以避免过滤所有数据集。 第一个解决方案是根据一个月中
的
某一天分配一个
分区
键。这意味着我有固定数量
的
分区
(31个),我可以每天处理。但问题是,数据大小将
随着
时间
的
推移而
增加
,但
分区
计数将保持不变,并且我可能会因为行太宽而遇到性能问题。其他解决方案是根本不处理这个问题,而是每天使用apache
spark
处理所有表(基本上使用
spark
过滤选择1/31
的</e
浏览 34
提问于2019-06-02
得票数 2
1
回答
对Cassandra行进行分组,然后使用
Spark
将其写为拼图文件
、
、
我需要把Cassandra
分区
写成parquet文件。因为我不能在foreach函数中共享和使用sparkSession。首先,我调用collect方法收集驱动程序中
的
所有数据,然后将
拼接
文件
写入
HDFS,如下所示。感谢这个链接https://github.com/datastax/
spark
-cassandra-connector/blob/master/doc/16_partitioning.md 我能够获得我
的<
浏览 22
提问于2019-12-26
得票数 1
1
回答
Apache
Spark
dataframe在
写入
拼图时不会重新
分区
、
我正在尝试对我
的
DataFrame进行
分区
,并将其
写入
拼图文件。在我看来,重新
分区
对内存中
的
数据帧起作用,但不会影响
拼接
分区
。更奇怪
的
是,coalesce是有效
的
。df.coalesce(20)[Stage 0:> (0 + 8) / 20] 我可以得到我想要
的
浏览 2
提问于2019-07-19
得票数 0
1
回答
spark
SAVEASTEXTfile耗费大量时间- 1.6.3
、
、
、
提取和处理1M条记录所需
的
时间不到1.1分钟。当我获取RDD
的
计数时。我使用以下选项来运行它:--num-executors 4 --executor-memory 4g --executor-cores 4 如果我
增加
执行器或内存
的
数量,仍然不会有任何不同。我已将
分区
数量设置为70,不确定是否
增加
此数量可能会有性能? 任何减少保存时间
的
建议都会很有帮助。 提前感谢
浏览 32
提问于2020-09-25
得票数 0
回答已采纳
2
回答
如何在使用
spark
数据帧
写入
时自动计算numRepartition
、
、
当我尝试将dataframe
写入
Hive
拼接
分区
表时它会在HDFS中创建大量
的
块,每个块只有很小
的
数据量。我理解它是如何进行
的
,因为每个
spark
子任务都会创建一个块,然后向其中
写入
数据。 我也理解,块
浏览 2
提问于2018-08-13
得票数 1
1
回答
如何设计存储用户特定数据
的
数据库
、
如果我将所有特定于用户
的
数据都放在一个表中,
随着
用户数量
的
增加
,表
的
大小将增长得太大,从而导致查询运行速度
变慢
。我知道对表进行
分区
是一种解决方案。但是,有没有办法设计它,使表不会变得太大?例如,每个用户都有自己
的
表?每次创建新用户时,是否会为该用户创建一个新表?
浏览 0
提问于2012-02-08
得票数 1
回答已采纳
1
回答
在
Spark
中对DataFrame进行排序时,幕后会发生什么?
在
Spark
中对DataFrame进行排序时,幕后会发生什么?例如,df.sort(i) 我知道当您将数据读取到DataFrame时会发生什么,但是我很好奇当您排序时会发生什么
浏览 2
提问于2018-08-14
得票数 0
1
回答
Spark
SQL忽略动态
分区
筛选器值
、
在AWS
的
EMR 5.20上运行
Spark
2.4时遇到问题。 我有一个字符串列作为
分区
,它有日期值。我
的
目标是将该列
的
最大值作为筛选器引用。这些值类似于2019年1月1日
的
2019-01-01。在这个查询中,我试图过滤到某个日期值(这是一个字符串数据类型),而
Spark
最终读取所有目录,而不仅仅是结果max(value)。
spark
.sql("select mypartitioncolumn, column1, column2 from m
浏览 29
提问于2019-02-21
得票数 2
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何管理Spark的分区
第八篇|Spark SQL百万级数据批量读写入MySQL
Flink+ 数据湖 Iceberg 的体验
作业帮湖仓一体最佳实践
Spark提交参数说明和常见优化
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券