随着分区的增加，spark拼接写入变慢

、、

我有一个火花流应用程序，从流写入拼花数据。SaveMode.Append).partitionBy("event_date", "event_hour","verb").parquet(Config.eventsS3Path) 这段代码每小时运行一次，但是随着时间的推移，写到parquet的速度变慢了。刚开始的时候，写入数据需要15分钟，现在需要40分钟。对于该路径中存在数据，这需要一定的时间

浏览 3提问于2016-09-16得票数 15

1回答

拼图文件:达到最小容量的最佳文件数量是多少

、

我用spark写了一个数据帧到一个拼图文件中，这个文件在HDFS上有100个子目录(每个子目录包含一个文件)。此文件大小为100 has。当我将数据帧重新分区到10个分区并将其写入HDFS时，输出拼接文件的大小增加到大约200 of。为什么会发生这种情况？写入拼图文件时，最佳分区数是多少？我的问题不同于this question，我认为它不是重复的。这个问题可能回答了我问题的第一部

浏览 16提问于2019-06-17得票数 0

1回答

使用Spark和Alluxio管理S3的文件大小

、、、

我使用Spark在Alluxio中写入数据，使用UFS作为S3，使用Hive拼接分区表。我在Alluxio中使用配置单元分区字段上的重分区函数来提高写操作的效率。这会导致在Alluxio中创建单个文件，即在S3中为分区组合创建单个对象。虽然Alluxio具有使用S3的偏移量以字节为单位读取数据的功能，但最终它会缓存来自S3的整个文件/对象。如果文件大小增加</em

浏览 8提问于2019-07-02得票数 1

2回答

Cassandra写入性能与关系型数据库

、

我正在尝试掌握Cassandra和关系数据库之间的一些性能差异。此外，据我所知，当表/分区变得更大时，关系数据库的更新会变慢。这是因为必须执行全表扫描来定位行，或者需要执行索引查找，并且随着表或分区的增长，这两种操作

浏览 1提问于2011-05-29得票数 1

回答已采纳

2回答

我正在编写一个ETL进程，我需要每小时读取一次日志文件，对数据进行分区，然后保存它。我正在使用Spark (在Databricks中)。日志文件是CSV，所以我读取它们并应用模式，然后执行转换。我的问题是，如何将每个小时的数据保存为拼图格式，并附加到现有的数据集？保存时，我需要按数据帧中存在的4列进行分区。如果目标不存在，那么我不会附加我的文件。我尝试过使用.mode("append")，但我发现Spark有时会中途失败，所以我最

浏览 0提问于2016-01-22得票数 18

2回答

spark写入拼花面板文件。如何指定行组大小？

、、、

我正在努力寻找如何在Spark API中指定拼图文件写入器的行组大小。我发现有一种方法可以做到这一点，那就是使用具有此选项的快速拼接python模块：write具有参数: row_group_offsets预先感谢您<em

浏览 5提问于2017-10-25得票数 1

2回答

随着表的增长，写入分区的Hive表需要更长的时间

、、、、

我使用Spark 2.4.4来写入一个2级分区的外部hive表(HDFS上的格式为parquet )：PARTITIONED模式相当复杂(有许多嵌套的数组和结构)。当我插入到该表中时：IO花费的时间随着每个作业的增加<

浏览 0提问于2021-01-13得票数 2

1回答

使用重复的键(没有三种方式的分区)，快速排序会变得更快。怎么一回事？

、、、

我一直在尝试测试快速排序，一切似乎都很好，除了，当我有许多重复的数组元素，我是一个意外的结果。 100万元素(0-2范围)：118毫秒 3000万元素(范围0~100万)：3

浏览 0提问于2018-11-18得票数 1

回答已采纳

3回答

dataframe.repartition(x)是否使执行速度更快？

、

这就是代码的样子：df_ods = spark.read.csv(File, header=True, sep=";")df_ods.repartition(25).write.format("parquet").mode("OverWrite").save("AnotherLocationInS3") 我的问题是:重新分区参数我应该增加<

浏览 3提问于2020-03-04得票数 1

回答已采纳

1回答

Spark:写入DynamoDB，写入容量有限

、、

我的用例是从Spark应用程序写入DynamoDB。由于我对DynamoDB的写入容量有限，并且不想因为成本问题而增加它，我如何将Spark应用程序限制为以规定的速度写入？这可以通过将分区减少到1然后执行foreachPartition()来实现吗请建议其他方法处理此问题。编辑:当Spark应用程序在多节点EMR集群上运行时，需要实现

浏览 1提问于2018-05-18得票数 2

1回答

Pyspark dataframe拼接vs.增量:不同的行数

、、、

我在HDFS上以Delta格式写入了数据。据我所知，Delta正在以拼接的形式存储数据，只是在它上面增加了一个具有高级功能的层。但是，当使用Pyspark读取数据时，如果使用spark.read.parquet()或spark.read.format('delta').load()读取dataframe，我会得到不同的结果 df= spark.read.format('delta').load(

浏览 28提问于2021-01-27得票数 1

回答已采纳

1回答

对少于N个分区的N个文件的磁盘进行spark写入

、

我们可以写数据到100个文件，每个文件有10个分区吗？我知道我们可以使用repartition或coalesce来减少分区数量。但我看到一些hadoop生成的avro数据的分区数量远远超过了文件数量。

浏览 11提问于2018-01-08得票数 8

回答已采纳

1回答

处理表的大部分时，Cassandra分区大小与分区计数

、、、

我正在尝试设计一个分区键，以避免过滤所有数据集。第一个解决方案是根据一个月中的某一天分配一个分区键。这意味着我有固定数量的分区(31个)，我可以每天处理。但问题是，数据大小将随着时间的推移而增加，但分区计数将保持不变，并且我可能会因为行太宽而遇到性能问题。其他解决方案是根本不处理这个问题，而是每天使用apache spark处理所有表(基本上使用spark过滤选择1/31的</e

浏览 34提问于2019-06-02得票数 2

1回答

对Cassandra行进行分组，然后使用Spark将其写为拼图文件

、、

我需要把Cassandra分区写成parquet文件。因为我不能在foreach函数中共享和使用sparkSession。首先，我调用collect方法收集驱动程序中的所有数据，然后将拼接文件写入HDFS，如下所示。感谢这个链接https://github.com/datastax/spark-cassandra-connector/blob/master/doc/16_partitioning.md 我能够获得我的<

浏览 22提问于2019-12-26得票数 1

1回答

Apache Spark* dataframe在写入拼图时不会重新分区*

、

我正在尝试对我的DataFrame进行分区，并将其写入拼图文件。在我看来，重新分区对内存中的数据帧起作用，但不会影响拼接分区。更奇怪的是，coalesce是有效的。df.coalesce(20)[Stage 0:> (0 + 8) / 20] 我可以得到我想要的

浏览 2提问于2019-07-19得票数 0

1回答

spark SAVEASTEXTfile耗费大量时间- 1.6.3

、、、

提取和处理1M条记录所需的时间不到1.1分钟。当我获取RDD的计数时。我使用以下选项来运行它：--num-executors 4 --executor-memory 4g --executor-cores 4 如果我增加执行器或内存的数量，仍然不会有任何不同。我已将分区数量设置为70，不确定是否增加此数量可能会有性能？任何减少保存时间的建议都会很有帮助。提前感谢

浏览 32提问于2020-09-25得票数 0

回答已采纳

2回答

如何在使用spark数据帧写入时自动计算numRepartition

、、

当我尝试将dataframe写入Hive拼接分区表时它会在HDFS中创建大量的块，每个块只有很小的数据量。我理解它是如何进行的，因为每个spark子任务都会创建一个块，然后向其中写入数据。我也理解，块

浏览 2提问于2018-08-13得票数 1

1回答

如何设计存储用户特定数据的数据库

、

如果我将所有特定于用户的数据都放在一个表中，随着用户数量的增加，表的大小将增长得太大，从而导致查询运行速度变慢。我知道对表进行分区是一种解决方案。但是，有没有办法设计它，使表不会变得太大？例如，每个用户都有自己的表？每次创建新用户时，是否会为该用户创建一个新表？

浏览 0提问于2012-02-08得票数 1

回答已采纳

1回答

在Spark中对DataFrame进行排序时，幕后会发生什么？

在Spark中对DataFrame进行排序时，幕后会发生什么？例如,df.sort(i) 我知道当您将数据读取到DataFrame时会发生什么，但是我很好奇当您排序时会发生什么

浏览 2提问于2018-08-14得票数 0

1回答

Spark SQL忽略动态分区筛选器值

、

在AWS的EMR 5.20上运行Spark 2.4时遇到问题。我有一个字符串列作为分区，它有日期值。我的目标是将该列的最大值作为筛选器引用。这些值类似于2019年1月1日的2019-01-01。在这个查询中，我试图过滤到某个日期值(这是一个字符串数据类型)，而Spark最终读取所有目录，而不仅仅是结果max(value)。spark.sql("select mypartitioncolumn, column1, column2 from m

浏览 29提问于2019-02-21得票数 2

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

拼图文件:达到最小容量的最佳文件数量是多少

使用Spark和Alluxio管理S3的文件大小

Cassandra写入性能与关系型数据库

将新数据追加到已分区的拼图文件

spark写入拼花面板文件。如何指定行组大小？

随着表的增长，写入分区的Hive表需要更长的时间

使用重复的键(没有三种方式的分区)，快速排序会变得更快。怎么一回事？

dataframe.repartition(x)是否使执行速度更快？

Spark:写入DynamoDB，写入容量有限

Pyspark dataframe拼接vs.增量:不同的行数

对少于N个分区的N个文件的磁盘进行spark写入

处理表的大部分时，Cassandra分区大小与分区计数

对Cassandra行进行分组，然后使用Spark将其写为拼图文件

Apache Spark* dataframe在写入拼图时不会重新分区*

spark SAVEASTEXTfile耗费大量时间- 1.6.3

如何在使用spark数据帧写入时自动计算numRepartition

如何设计存储用户特定数据的数据库

在Spark中对DataFrame进行排序时，幕后会发生什么？

Spark SQL忽略动态分区筛选器值

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐