腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Spark
SQL
忽略
动态
分区
筛选
器
值
、
在AWS的EMR 5.20上运行
Spark
2.4时遇到问题。 我有一个字符串列作为
分区
,它有日期
值
。我的目标是将该列的最大
值
作为
筛选
器
引用。这些
值
类似于2019年1月1日的2019-01-01。在这个查询中,我试图过滤到某个日期
值
(这是一个字符串数据类型),而
Spark
最终读取所有目录,而不仅仅是结果max(value)。
spark
.
sql
("select mypartitioncolu
浏览 29
提问于2019-02-21
得票数 2
1
回答
不具有
分区
列性能的火花下推滤波
器
我有一个关于
spark
中的过滤的问题,当你不在过滤器中包括
分区
列时。假设我有以下按日期
分区
的数据: part-0001.parquet数据有一个名为"action“的列,其中大约30%的数据
值
为0,其余的数据
值
为1
spark
.read.parquet("s3a://path").fil
浏览 2
提问于2020-08-02
得票数 0
4
回答
用星星之火覆盖蜂窝
分区
、
、
、
、
我正在使用AWS,我有使用
Spark
和Hive的工作流。我的数据是按日期划分的,所以每天我在S3存储中都有一个新的
分区
。我的问题是,当有一天加载数据失败时,我必须重新执行该
分区
。如果我使用SaveMode.Overwrite,完整的表将被删除,并且只保存
分区
。如果我使用SaveMode.Append,我可能有重复的数据。我发现这个应该能解决我所面临的问题,但是在最后一个版本的
Spark
(2.3.0)中,情况是一样的。它删除整个表并保存
分区
,而不是覆盖我的数据所拥有的
分区</em
浏览 2
提问于2018-04-23
得票数 11
回答已采纳
1
回答
启用DRA的
spark
中的
分区
数
它建议使用,所以我在固定大小的集群中为
spark
作业设置了
spark
.
sql
.shuffle.partitions = 2 *
spark
.executor.cores *
spark
.executor.instances但是执行
器
(De)在DRA启用时
动态
分配,如何正确地设置
分区
或将其保留为默认
值
(200)?
浏览 3
提问于2022-10-27
得票数 0
回答已采纳
1
回答
如何使用pyspark对
SQL
Server表进行
分区
,其中
分区
列是整数,但是是日期格式(20170101到20200306)?
、
、
、
、
像这样的20170101 20170103 20170102 . 20200101 每个
分区
中大约有1000万行。 如何在pyspark中使用此字段作为
分区
列来读取表?
浏览 19
提问于2020-06-26
得票数 0
1
回答
ADF接收
器
中的自定义文件名模式
、
、
输出文件将有多个
分区
。例子-如果可以的话,请告诉我。
浏览 2
提问于2022-03-07
得票数 1
3
回答
单元
分区
表读取所有
分区
,尽管有火花
筛选
器
、
、
、
我使用
spark
和scala来读取一个特定的Hive
分区
。
分区
是year、month、day、a和b。scala>
spark
.
sql
("select * from db.table where year=2019 and month=2 and day=28 and a='y' and b='z'")正在尝试读取一个不同的
分区
,而我在那里没有权限。不应该是这样,因为我创建了一个过滤器,这个过滤器就是我的
分区</e
浏览 2
提问于2019-05-22
得票数 14
回答已采纳
2
回答
调优火花、设置执行
器
和内存驱动程序以读取大型csv文件
、
、
、
、
--conf
spark
.dynamicAllocation.maxExecutors=50 (尝试了不同的
值
)。 TotalNumberOfTasks: (18500),为什么这是固定的?
浏览 4
提问于2017-12-05
得票数 1
1
回答
是否有可能将项目阶段推到HiveTableScan?
、
、
、
、
我使用
Spark
查询以Hive格式存储的ORC格式的数据。当我对提供给
spark
.
sql
(query)的查询运行explain命令时,我看到以下查询计划:*Project [col1, col2, col3] +- HiveTableScan [col1, col2, col3, ...col50] 正如我所理解的,它从Hive中查询所有50列,只有这样,火花和后置词中的
筛选
才只选择实际需要的列是否有可能将所需的列直接推倒到蜂巢中,这样它们
浏览 1
提问于2019-09-06
得票数 2
回答已采纳
1
回答
火花读取
分区
avro比指向精确位置慢得多
、
、
、
我正在尝试读取
分区
的Avro数据,该数据是根据年、月和日进行
分区
的,这似乎比直接指向路径要慢得多。在物理计划中,我可以看到
分区
筛选
器
正在传递,因此它不会扫描整个目录集,但它仍然非常慢。/"profitLoss =
spark
.read.\ option("header", "false", &q
浏览 13
提问于2020-06-23
得票数 1
回答已采纳
2
回答
Apache不使用来自Hive
分区
外部表的
分区
信息
、
、
当我运行hive查询时,它会显示所有记录和
分区
。是否有任何标志或设置可以帮助我使用星火中的Hive外部表的
分区
?谢谢。 由于某些原因,只有火花计划没有
浏览 0
提问于2019-08-24
得票数 3
3
回答
Spark
2.3 Dataframe
分区
-想要在n个
分区
中对key上的数据进行
分区
、
、
、
我需要
spark
(scala)数据帧
分区
方面的帮助。我需要将一个键列划分为n个
分区
,所有与相同key相关的行都应该在同一个
分区
中(即key不应该跨
分区
分布)例如:假设我有下面的数据帧诸若此类提前感谢
浏览 4
提问于2020-03-13
得票数 0
2
回答
星火支持插入覆盖静态
分区
吗?
、
、
我注意到,在当前的
Spark
手册中,不支持插入
动态
分区
:
Spark
目前不支持使用
动态
分区
插入表。 但是,是否支持在静态
分区
中插入/覆盖?
浏览 12
提问于2014-11-04
得票数 0
2
回答
如何在
Spark
中获取hive表的
分区
信息
、
、
我想像这样通过
Spark
来执行
SQL
。但我希望在执行之前对表进行
分区
检查,以避免全扫描。如果表是
分区
表,我的程序将强制用户添加
分区
筛选
器
。如果不是,就可以运行了。 所以我的问题是如何知道一个表是否是
分区
表?我的想法是从metastore读取信息。但如何获得转移是我遇到的另一个问题。
浏览 113
提问于2019-07-31
得票数 2
回答已采纳
1
回答
我应该如何配置
Spark
来正确地修剪Hive Metastore
分区
?
、
、
当将
分区
筛选
器
应用到
Spark
(v2.0.2/2.1.1) DataFrames时,我遇到了问题,它从一个有超过30000个
分区
的Hive (v2.1.0)表中读取。为了允许剪枝,我使用以下
Spark
/Hive属性:在
spark
中运行查询时,我可以看到
分区
fetch'2017-0
浏览 6
提问于2017-09-11
得票数 2
回答已采纳
1
回答
Spark
on AWS EMR -
动态
分区
覆盖S3 / Glue
、
、
、
我正在使用AWS EMR笔记本中的pyspark,并希望在保存表时覆盖单个
分区
。有没有办法只覆盖S3
分区
和
spark
元数据中的文件? 注意:我使用Glue作为
spark
元数据
浏览 1
提问于2021-06-12
得票数 0
4
回答
从星火中丢弃
分区
、
我正在使用(
Spark
2.2.0)。我试图按以下方式删除Hive
分区
:得到了以下例外: 谢谢。
浏览 5
提问于2018-09-27
得票数 7
1
回答
Spark
2.2.0版本中的OverWrite专用
分区
、
、
在
Spark
中,我希望覆盖特定的
分区
,而不是所有的
分区
。我正在尝试以下命令:df.write \ .partitionBy("partition_date", "hour") \ .save(
浏览 15
提问于2022-11-29
得票数 0
4
回答
spark
.
sql
.shuffle.partitions的最佳
值
应该是什么,或者在使用
Spark
时如何增加
分区
?
、
我使用的是
Spark
,实际上是hiveContext.
sql
(),它使用group查询,并且遇到OOM问题。因此,考虑将
spark
.
sql
.shuffle.partitions的价值从200个默认增加到1000个,但这并没有帮助。 我相信这个
分区
会共享数据洗牌负载,所以
分区
越多,容纳的数据就越少。我使用的是
Spark
1.4.0,我有大约1TB的未压缩数据可以使用hiveContext.
sql
() group查询进行处理。
浏览 13
提问于2015-09-02
得票数 40
回答已采纳
2
回答
星火error:java.lang.IllegalArgumentException:大小超过Integer.MAX_VALUE
、
、
at org.apache.
spark
.rdd.RDD.iterator(RDD.scala:268) at org.apache.
spark
.rdd.MapPartitionsRDD.computeat org.apache.
spark
.rdd.RDD.iterator(RDD.scala:
浏览 0
提问于2018-04-13
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Spark 3.0重磅发布!开发近两年,流、Python、SQL重大更新全面解读
Spark SQL,DataFrames 以及 Datasets 编程指南
Apache Spark 3.0 预览版正式发布,多项重大功能发布
大数据有道之spark筛选去重
Structured Streaming实现超低延迟
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券