Spark -将分区数减少到已读取的文件夹数

、、

使用spark streaming(每隔5分钟)，我将数据存储为HDFS中的拼图。/data/yyyy-MM-dd/*..parquet 例如: /data/2020-02-02/*parquet 每个拼图文件的大小仅以KB为单位每个文件夹最多可包含288个地块文件(最多)。我们通常读取过去24小时、过去7天、过去一个月等等的数据。当使用spark和我读取数据时，我已经检

浏览 15提问于2020-02-02得票数 0

1回答

如何减少Spark执行计划的总定时处理

、、、、

我刚刚开发了一个Spark应用程序，在一些算法分析过程中，我意识到执行计划需要很长时间来处理。如何优化Spark执行计划的性能？目前，对于每个执行周期时间，它大约需要一个~90s，它在批处理模式下运行一个循环，如下所述：将输出发送回Kafka输出主题由于每一个周期大约90年代，这意味着卡夫卡事件可以采取从90s到180年代被处理。IMHO，我可以在批处理模式下扩展火花硬件以寻找更好

浏览 3提问于2021-04-08得票数 3

2回答

为什么PostgreSQL说“致命”：对不起，当我无法达到最大连接时，已经有太多的客户端了？

、、、、

我正在处理PostgreSQL 11.2的安装，它会定期在系统日志中进行抱怨。尽管是无-哪里接近其配置的连接限制。我从未见过使用此查询连接到数据库的大约45个连接，甚至在运行中的程序收到数据库错误之前，在Postgres日志中显示了太多由上述消息支持的客户端。使用psycopg2 (即主要客户端)的常规python代码从不触发它(即使是在以相同的方式从Pandas写入表时)，pgAdmin

浏览 6提问于2021-02-13得票数 1

回答已采纳

2回答

调优火花、设置执行器和内存驱动程序以读取大型csv文件

、、、、

我想知道如何选择最佳的设置运行调我火花工作。基本上，我只是将一个大的csv文件读取到一个DataFrame中，并计数一些字符串出现的情况。TotalNumberOfTasks: (18500)，为什么这是固定的？由于我阅读的csv没有什么逻辑，我如何优化火花作业？我还试着

浏览 4提问于2017-12-05得票数 1

1回答

具有JDBC连接的SparkSql

、

我想使用Spark的JDBC从数据库中读取数据。我将使用200个执行者来读取数据。我的问题是，如果我提供了200个执行器，那么它会创建到集中式数据库(JDBC)的200个连接，还是会从具有单个连接的驱动程序中获取数据？

浏览 1提问于2018-05-17得票数 2

1回答

如何激发SQL access数据库？

、

假设您使用spark访问一个SQL数据库。使用RDD火花将数据划分为多个不同的部分，这些部分共同构成数据集。 RDD的每个节点访问数据库并构建它们的部分。它的优点是节点不会被迫分配大量内存，但是数据库将不得不承受N个可能很大的连接。问题是，这个单一节点需要拥有所有的数据，这在许多情况下是行不通的。可能可以通过按块获

浏览 2提问于2020-03-06得票数 1

回答已采纳

1回答

拼花分区和HDFS文件大小

、、

我的数据是相对较小的Avro记录形式，用Parquet文件编写(平均< 1mb)。我使用目录层次结构对数据进行了分区。我想知道在Avro记录上“构建”分区并积累更大的文件是否更好.但是，我认为分区Parquet文件也会“映射”到HDFS分区文件。 “在Avro记录上构建分区”：假设我<e

浏览 5提问于2016-08-22得票数 0

1回答

Spark2.x:使用Spark查询蜂巢表时由火花作业设置的任务数

、

已经提出了很多关于星火任务的数量以及这与分区数量之间的关系的问题。但不知何故我无法理解下面的情况。spark.executor.cores = 6val myDF = spark

浏览 0提问于2018-09-26得票数 1

1回答

星火中的分区与数据湖中的分区

、、、、

当将文件写入Data时，特别是通过Databricks，我们可以选择指定分区列。这将根据数据集中该列中可用的值将数据保存在单独的文件夹(分区)中。同时，当我们讨论星火优化时，我们谈到了数据的分区。据我所理解，如果我们只想读取数据的某些部分(当然是基于分区列)，将数据保存在分区中的分布式文件系统中将有所帮助。例如，如果我们按颜色

浏览 2提问于2022-05-10得票数 0

回答已采纳

1回答

一次spark任务混洗写入非常慢

下图是针对spark sql联合的。我确信每个任务的输入大小都非常接近。 

浏览 0提问于2019-06-25得票数 1

2回答

spark.sql.files.maxPartitionBytes不限制写入分区的最大大小

、、

我正在尝试将拼板数据从另一个s3桶复制到我的s3桶中。我希望将每个分区的大小限制为128 MB。我认为默认情况下，spark.sql.files.maxPartitionBytes应该设置为128 MB，但是当我在复制后查看s3中的分区文件时，我会看到大约226 MB的单个分区文件。我看了这篇文章，它建议我设置这个星火配置键，以限制分区的最大大小：，但它似乎不起作用吗？这是配置键

浏览 54提问于2020-06-30得票数 1

1回答

如何在星火中计算内部连接的分区数？

、、

df_B.createOrReplaceTempView('table_B')""")df_C.rdd.getPartitionsNumber() df_C=spark.sql(“”从table_A inner table_B on (.)table_A# => 160中选择*) 星火如何计算和使用这两个分区为两个连接的数据文件？连接的dataframe的分区数</

浏览 1提问于2021-05-23得票数 2

1回答

我的理解是，默认的spark.cassandra.input.split.size_in_mb是64MB.It，意味着为从Cassandra读取数据而创建的任务数量将是Approx_size/64。假设表大小为6400 MB (我们只是读取数据、执行foreachPartition并将数据写回DB)，因此任务数将为100个。但是当我在纱线上执行作业的时候，如果我特别设置了--num-executors 3，-executor-core 2，那

浏览 3提问于2022-02-08得票数 0

回答已采纳

1回答

spark on Yarn中的任务太多

、

我使用spark-sql读取一个大表并生成100,000个任务。我知道我可以设置num_of_partitions，但它对小表也是一样的。

浏览 0提问于2017-12-26得票数 0

2回答

Apache内存不足，分区数量较少

我有一个持续耗尽内存的Spark应用程序，集群有两个节点，内存约为30G，输入数据大小约为几百GB。应用程序是一个Spark作业，它从HDFS中读取数据并创建一个表并缓存它，然后执行一些Spark查询并将结果写回HDFS。最初，我将数据分割成64个分区，得到了OOM，然后通过使用1024个分区修复了内存问题。但是为什么使用更多的分区帮助我解决了OOM问题？

浏览 7提问于2016-06-30得票数 4

3回答

Spark - Dataframe编写器-额外的空文件

、

我正面临着spark的奇怪行为。我添加了一列，以便使用以下代码定位每行所在的位置： df.select('*', spark_partition_id().alias('partition_id')) 结果是： +-----+----Zuid| 102|+-----+--------------------+------------+ 到目前一切尚好part-000

浏览 23提问于2020-01-14得票数 1

1回答

Kafka主题分区到星火流

、、

我有一些需要澄清的用例，关于卡夫卡主题分区->火花流资源利用率。如果我有：主题中有两个

浏览 3提问于2016-06-14得票数 17

回答已采纳

1回答

为什么星火不在读取时根据Parquet块大小创建分区？(相反，它似乎按照Parquet文件的压缩大小进行分区)

、、、

在下面的场景中，我使用Spark读取了一个Parquet文件：文件中的块数(行组)：3blockSize: 195 MB, rowCount: 1395661读取这个单一的Parquet文件时，它只创建一个分区。，Hadoop在读取操作期间将一个HDFS块映射为一个Parquet块大小，因此根据本例，应该将其映射到三个HDFS块。当我尝试使用Spark

浏览 3提问于2020-05-17得票数 2

2回答

加载拼板文件并保持相同数量的hdfs分区

、、、、

我在hdfs中保存了一个带有120个分区的拼花文件/df。hdfs上每个分区的大小约为43.5M。但是，Spark将自动将文件加载到60个分区中。_jsc.hadoopConfiguration().get("dfs.blocksize"))/2**20128 将这些值中的任何一个更改为较低的值并不会导致将拼花文件加载到hdfs中相同数量的</

浏览 0提问于2019-06-14得票数 0

1回答

火花-蜂巢分区

、

Hive表是使用4个分区创建的。hourlies.write.partitionBy("traffic_date_hour").insertInto("hourly_suspect")问题是，当插入发生在hive表中时，它有128个分区，而不是4个桶。defaultParallelism不能减少到4，因为这会导致一个非常

浏览 2提问于2016-03-21得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何减少Spark执行计划的总定时处理

为什么PostgreSQL说“致命”：对不起，当我无法达到最大连接时，已经有太多的客户端了？

调优火花、设置执行器和内存驱动程序以读取大型csv文件

具有JDBC连接的SparkSql

如何激发SQL access数据库？

拼花分区和HDFS文件大小

Spark2.x:使用Spark查询蜂巢表时由火花作业设置的任务数

星火中的分区与数据湖中的分区

一次spark任务混洗写入非常慢

spark.sql.files.maxPartitionBytes不限制写入分区的最大大小

如何在星火中计算内部连接的分区数？

星火卡桑德拉与资源分配

spark on Yarn中的任务太多

Apache内存不足，分区数量较少

Spark - Dataframe编写器-额外的空文件

Kafka主题分区到星火流

为什么星火不在读取时根据Parquet块大小创建分区？(相反，它似乎按照Parquet文件的压缩大小进行分区)

加载拼板文件并保持相同数量的hdfs分区

火花-蜂巢分区

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐