Spark SQL忽略动态分区筛选器值

、

在AWS的EMR 5.20上运行Spark 2.4时遇到问题。我有一个字符串列作为分区，它有日期值。我的目标是将该列的最大值作为筛选器引用。这些值类似于2019年1月1日的2019-01-01。在这个查询中，我试图过滤到某个日期值(这是一个字符串数据类型)，而Spark最终读取所有目录，而不仅仅是结果max(value)。spark.sql("select mypartitioncolu

浏览 29提问于2019-02-21得票数 2

1回答

不具有分区列性能的火花下推滤波器

我有一个关于spark中的过滤的问题，当你不在过滤器中包括分区列时。假设我有以下按日期分区的数据： part-0001.parquet数据有一个名为"action“的列，其中大约30%的数据值为0，其余的数据值为1spark.read.parquet("s3a://path").fil

浏览 2提问于2020-08-02得票数 0

4回答

用星星之火覆盖蜂窝分区

、、、、

我正在使用AWS，我有使用Spark和Hive的工作流。我的数据是按日期划分的，所以每天我在S3存储中都有一个新的分区。我的问题是，当有一天加载数据失败时，我必须重新执行该分区。如果我使用SaveMode.Overwrite，完整的表将被删除，并且只保存分区。如果我使用SaveMode.Append，我可能有重复的数据。我发现这个应该能解决我所面临的问题，但是在最后一个版本的Spark (2.3.0)中，情况是一样的。它删除整个表并保存分区，而不是覆盖我的数据所拥有的分区</em

浏览 2提问于2018-04-23得票数 11

回答已采纳

1回答

启用DRA的spark中的分区数

它建议使用，所以我在固定大小的集群中为spark作业设置了spark.sql.shuffle.partitions = 2 * spark.executor.cores * spark.executor.instances但是执行器(De)在DRA启用时动态分配，如何正确地设置分区或将其保留为默认值(200)？

浏览 3提问于2022-10-27得票数 0

回答已采纳

1回答

如何使用pyspark对SQL* Server表进行分区，其中分区列是整数，但是是日期格式(20170101到20200306)？*

、、、、

像这样的20170101 20170103 20170102 . 20200101 每个分区中大约有1000万行。如何在pyspark中使用此字段作为分区列来读取表？

浏览 19提问于2020-06-26得票数 0

1回答

ADF接收器中的自定义文件名模式

、、

输出文件将有多个分区。例子-如果可以的话，请告诉我。

浏览 2提问于2022-03-07得票数 1

3回答

单元分区表读取所有分区，尽管有火花筛选器

、、、

我使用spark和scala来读取一个特定的Hive分区。分区是year、month、day、a和b。scala> spark.sql("select * from db.table where year=2019 and month=2 and day=28 and a='y' and b='z'")正在尝试读取一个不同的分区，而我在那里没有权限。不应该是这样，因为我创建了一个过滤器，这个过滤器就是我的分区</e

浏览 2提问于2019-05-22得票数 14

回答已采纳

2回答

调优火花、设置执行器和内存驱动程序以读取大型csv文件

、、、、

--conf spark.dynamicAllocation.maxExecutors=50 (尝试了不同的值)。 TotalNumberOfTasks: (18500)，为什么这是固定的？

浏览 4提问于2017-12-05得票数 1

1回答

是否有可能将项目阶段推到HiveTableScan？

、、、、

我使用Spark查询以Hive格式存储的ORC格式的数据。当我对提供给spark.sql(query)的查询运行explain命令时，我看到以下查询计划：*Project [col1, col2, col3] +- HiveTableScan [col1, col2, col3, ...col50] 正如我所理解的，它从Hive中查询所有50列，只有这样，火花和后置词中的筛选才只选择实际需要的列是否有可能将所需的列直接推倒到蜂巢中，这样它们

浏览 1提问于2019-09-06得票数 2

回答已采纳

1回答

火花读取分区avro比指向精确位置慢得多

、、、

我正在尝试读取分区的Avro数据，该数据是根据年、月和日进行分区的，这似乎比直接指向路径要慢得多。在物理计划中，我可以看到分区筛选器正在传递，因此它不会扫描整个目录集，但它仍然非常慢。/"profitLoss = spark.read.\ option("header", "false", &q

浏览 13提问于2020-06-23得票数 1

回答已采纳

2回答

Apache不使用来自Hive分区外部表的分区信息

、、

当我运行hive查询时，它会显示所有记录和分区。是否有任何标志或设置可以帮助我使用星火中的Hive外部表的分区？谢谢。由于某些原因，只有火花计划没有

浏览 0提问于2019-08-24得票数 3

3回答

Spark 2.3 Dataframe分区-想要在n个分区中对key上的数据进行分区

、、、

我需要spark(scala)数据帧分区方面的帮助。我需要将一个键列划分为n个分区，所有与相同key相关的行都应该在同一个分区中(即key不应该跨分区分布)例如:假设我有下面的数据帧诸若此类提前感谢

浏览 4提问于2020-03-13得票数 0

2回答

星火支持插入覆盖静态分区吗？

、、

我注意到，在当前的Spark手册中，不支持插入动态分区： Spark目前不支持使用动态分区插入表。但是，是否支持在静态分区中插入/覆盖？

浏览 12提问于2014-11-04得票数 0

2回答

如何在Spark中获取hive表的分区信息

、、

我想像这样通过Spark来执行SQL。但我希望在执行之前对表进行分区检查，以避免全扫描。如果表是分区表，我的程序将强制用户添加分区筛选器。如果不是，就可以运行了。所以我的问题是如何知道一个表是否是分区表？我的想法是从metastore读取信息。但如何获得转移是我遇到的另一个问题。

浏览 113提问于2019-07-31得票数 2

回答已采纳

1回答

我应该如何配置Spark来正确地修剪Hive Metastore分区？

、、

当将分区筛选器应用到Spark (v2.0.2/2.1.1) DataFrames时，我遇到了问题，它从一个有超过30000个分区的Hive (v2.1.0)表中读取。为了允许剪枝，我使用以下Spark/Hive属性：在spark中运行查询时，我可以看到分区fetch'2017-0

浏览 6提问于2017-09-11得票数 2

回答已采纳

1回答

Spark on AWS EMR -动态分区覆盖S3 / Glue

、、、

我正在使用AWS EMR笔记本中的pyspark，并希望在保存表时覆盖单个分区。有没有办法只覆盖S3分区和spark元数据中的文件？注意:我使用Glue作为spark元数据

浏览 1提问于2021-06-12得票数 0

4回答

从星火中丢弃分区

、

我正在使用(Spark2.2.0)。我试图按以下方式删除Hive分区：得到了以下例外：谢谢。

浏览 5提问于2018-09-27得票数 7

1回答

Spark2.2.0版本中的OverWrite专用分区

、、

在Spark中，我希望覆盖特定的分区，而不是所有的分区。我正在尝试以下命令：df.write \ .partitionBy("partition_date", "hour") \ .save(

浏览 15提问于2022-11-29得票数 0

4回答

spark.sql.shuffle.partitions的最佳值应该是什么，或者在使用Spark时如何增加分区？

、

我使用的是Spark，实际上是hiveContext.sql()，它使用group查询，并且遇到OOM问题。因此，考虑将spark.sql.shuffle.partitions的价值从200个默认增加到1000个，但这并没有帮助。我相信这个分区会共享数据洗牌负载，所以分区越多，容纳的数据就越少。我使用的是Spark1.4.0，我有大约1TB的未压缩数据可以使用hiveContext.sql() group查询进行处理。

浏览 13提问于2015-09-02得票数 40

回答已采纳

2回答

星火error:java.lang.IllegalArgumentException:大小超过Integer.MAX_VALUE

、、

at org.apache.spark.rdd.RDD.iterator(RDD.scala:268) at org.apache.spark.rdd.MapPartitionsRDD.computeat org.apache.spark.rdd.RDD.iterator(RDD.scala:

浏览 0提问于2018-04-13得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

不具有分区列性能的火花下推滤波器

用星星之火覆盖蜂窝分区

启用DRA的spark中的分区数

如何使用pyspark对SQL* Server表进行分区，其中分区列是整数，但是是日期格式(20170101到20200306)？*

ADF接收器中的自定义文件名模式

单元分区表读取所有分区，尽管有火花筛选器

调优火花、设置执行器和内存驱动程序以读取大型csv文件

是否有可能将项目阶段推到HiveTableScan？

火花读取分区avro比指向精确位置慢得多

Apache不使用来自Hive分区外部表的分区信息

Spark 2.3 Dataframe分区-想要在n个分区中对key上的数据进行分区

星火支持插入覆盖静态分区吗？

如何在Spark中获取hive表的分区信息

我应该如何配置Spark来正确地修剪Hive Metastore分区？

Spark on AWS EMR -动态分区覆盖S3 / Glue

从星火中丢弃分区

Spark2.2.0版本中的OverWrite专用分区

spark.sql.shuffle.partitions的最佳值应该是什么，或者在使用Spark时如何增加分区？

星火error:java.lang.IllegalArgumentException:大小超过Integer.MAX_VALUE

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐