Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >在amazon-s3中包含从spark读取的~25个以上的文件时出错

在amazon-s3中包含从spark读取的~25个以上的文件时出错
EN

Stack Overflow用户
提问于 2021-01-15 22:28:20
回答 2查看 31关注 0票数 1

我刚刚升级到使用spark 3而不是spark 2.4。

以下代码在spark 2.4中运行良好

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
df = spark.read.parquet('s3a://bucket/path/{'+
                                      'file1,'+
                                      'file2,'+
                                      'file3,'+
                                      'file4,'+
                                      'file5,'+
                                      'file6,'+
                                      'file7,'+
                                      'file8,'+
                                      'file9,'+
                                      'file10,'+
                                      'file11,'+
                                      'file12,'+
                                      'file13,'+
                                      'file14,'+
                                      'file15,'+
                                      'file16,'+
                                      'file17,'+
                                      'file18,'+
                                      'file19,'+
                                      'file20,'+
                                      'file21,'+
                                      'file22,'+
                                      'file23,'+
                                      'file24,'+
                                      'file25'+
                                      '}')

但在spark 3中,我得到了这个错误:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
Py4JJavaError: An error occurred while calling o944.parquet.
: org.apache.hadoop.fs.s3a.AWSS3IOException: getFileStatus on s3a://

...

com.amazonaws.services.s3.model.AmazonS3Exception: Bad Request (Service: Amazon S3; Status Code: 400; Error Code: 400 Bad Request; Request ID: aaa), S3 Extended Request ID:

如果我将文件数量减少到小于24个,那么查询将在spark 3中成功完成。

在s3中,我找不到任何关于像这样的括号扩展中的文件数量限制的参考。可能出了什么问题?如何修复呢?

EN

回答 2

Stack Overflow用户

发布于 2021-01-19 15:31:36

为什么不让spark处理整个目录,让它扫描文件呢?

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
df = spark.read.parquet('s3a://bucket/path/')
票数 0
EN

Stack Overflow用户

发布于 2021-01-21 01:49:09

aws查询不能超过1024个字符。不知何故,这在spark 2中不是问题。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/65744364

复制
相关文章
读取csv(tsv)文件出错
用以下语句读tsv文件:df_in=pd.read_csv('../data/voyage_report_20220623.tsv', sep='\t')报错如下:ParserError: Error tokenizing data. C error: EOF inside string starting at row 15212改成:df_in=pd.read_csv('../data/voyage_report_20220623.tsv', sep='\t',quoting=csv.QUOTE_NONE
西西木木
2022/06/24
2K0
linux/shell:读取包含'.'键名的.properties文件
如果properties中的key名只是由字母数字组成,那读取properties中的property很简单,示例如下:
10km
2019/07/02
3.4K0
R中读取包含中文字符的文件时这个诡异的错误你见过吗?
尝试读入R,报错 line 2 did not have 2 elements 很诡异的提示!!!
生信宝典
2022/01/18
2.3K0
spark批量读取大量小文件的办法
在实际工程中,经常会遇到要一起读取众多小文件的办法。本来正常情况下是进行文件夹的遍历。
sparkexpert
2022/05/07
1.2K0
spark批量读取大量小文件的办法
使用Spark读取Hive中的数据
在默认情况下,Hive使用MapReduce来对数据进行操作和运算,即将HQL语句翻译成MapReduce作业执行。而MapReduce的执行速度是比较慢的,一种改进方案就是使用Spark来进行数据的查找和运算。Hive和Spark的结合使用有两种方式,一种称为Hive on Spark:即将Hive底层的运算引擎由MapReduce切换为Spark,官方文档在这里:Hive on Spark: Getting Started。还有一种方式,可以称之为Spark on Hive:即使用Hive作为Spark的数据源,用Spark来读取HIVE的表数据(数据仍存储在HDFS上)。
张子阳
2018/09/28
11.3K0
Python Numpy 从文件中读取数据
测试文件内容(test1.txt) hello,123,nihao 8,9,10 io,he,no 测试代码 import numpy # dtype:默认读取数据类型,delimiter:分隔符 world_alcohol = numpy.genfromtxt("test1.txt", dtype=str, delimiter=",") # 数据结构 print(type(world_alcohol)) # 数据内容 print(world_alcohol) # 帮助文档 print(help(nump
山海散人
2021/03/03
4.2K0
在Shell脚本中逐行读取文件的命令方法
为了演示,在此创建一个名为“ mycontent.txt”的文本文件,文件内容在下面:
用户7639835
2021/12/03
9.3K0
Spark Tips 2: 在Spark Streaming中均匀分配从Kafka directStream 中读出的数据
下面这段code用于在Spark Streaming job中读取Kafka的message: ...... JavaPairInputDStream<String,String> messages =KafkaUtils.createDirectStream( jssc, String.class, String.class, StringDecoder.class, StringDecoder.class, kafkaParams, topicsSet ); JavaDStream<String>lin
叶锦鲤
2018/03/15
1.5K0
Spark Core快速入门系列(11) | 文件中数据的读取和保存
  从文件中读取数据是创建 RDD 的一种方式.   把数据保存的文件中的操作是一种 Action.   Spark 的数据读取及数据保存可以从两个维度来作区分:文件格式以及文件系统。   文件格式分为:Text文件、Json文件、csv文件、Sequence文件以及Object文件;   文件系统分为:本地文件系统、HDFS、Hbase 以及 数据库。   平时用的比较多的就是: 从 HDFS 读取和保存 Text 文件.
不温卜火
2020/10/28
2K0
Spark Core快速入门系列(11) |  文件中数据的读取和保存
Phoenix填坑记2:phoenix-5.0 在hbase2.0.1及以上版本,在使用索引时出错
截止到2020年12月,Phoenix最高只支持到Hbase2.0版本,并不支持更高的版本。而我们采用的是腾讯云HBase,使用的版本是2.2.0版本,我们在使用Phoenix-5.0版本时,发现系统报错,无法正常使用。
源哥
2021/01/02
3.8K1
spark读取多个文件夹(嵌套)下的多个文件
在正常调用过程中,难免需要对多个文件夹下的多个文件进行读取,然而之前只是明确了spark具备读取多个文件的能力。
sparkexpert
2022/05/07
3.2K0
pyspark之从HDFS上读取文件、从本地读取文件
hdfs上的路径: path="hdfs:///主机名:端口号/地址" 本地上的路径: path"file:///本地地址" 读取文件: rdd=sc.textFile(path)
西西嘛呦
2020/08/26
5.1K0
【Spark篇】---Spark中Shuffle文件的寻址
Spark中Shuffle文件的寻址是一个文件底层的管理机制,所以还是有必要了解一下的。
LhWorld哥陪你聊算法
2018/09/13
7840
【Spark篇】---Spark中Shuffle文件的寻址
Spark Tips3: 在Spark Streaming job中读取Kafka messages及其offsetRange
在Spark Streaming job中读取Kafka topic(s)中的messages时,有时我们会需要同步记录下每次读取的messages的offsetRange。要达到这一目的,下面这两段代码(代码1和代码2)都是正确的,而且是等价的。 代码1(正确): ----------------------- JavaPairInputDStream<String, String> messages = KafkaUtils.createDirectStream( jssc,
叶锦鲤
2018/03/15
1.6K0
Nodejs中读取文件目录中的所有文件
关于Nodejs中的文件系统即File System可以参考官方Node.js v12.18.1的文档File system
ccf19881030
2020/06/28
14.8K0
[源码剖析]Spark读取配置Spark读取配置
我们知道,有一些配置可以在多个地方配置。以配置executor的memory为例,有以下三种方式:
codingforfun
2018/08/24
1.6K0
[源码剖析]Spark读取配置Spark读取配置
spark2 sql读取json文件的格式要求
问题导读 1.spark2 sql如何读取json文件? 2.spark2读取json格式文件有什么要求? 3.spark2是如何处理对于带有表名信息的json文件的? spark有多个数据源,
用户1410343
2018/03/26
2.5K0
spark2 sql读取json文件的格式要求
matlab读取mnist数据集(c语言从文件中读取数据)
mnist database(手写字符识别) 的数据集下载地:http://yann.lecun.com/exdb/mnist/。
全栈程序员站长
2022/08/01
5K0
matlab读取mnist数据集(c语言从文件中读取数据)
点击加载更多

相似问题

读取Spark中的文件时出错

11

在Spark中读取CSV文件时出错

20

Spark Streaming -从Kinesis读取时出错

11

Apache Spark:运行命令从HDFS读取文件时出错

11

在Scala IDE中读取spark代码中的avro文件时出错

422
添加站长 进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

扫码加入开发者社群
关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

扫码关注腾讯云开发者公众号
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文