腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

社区首页 >问答首页 >在amazon-s3中包含从spark读取的~25个以上的文件时出错

问在amazon-s3中包含从spark读取的~25个以上的文件时出错
EN

Stack Overflow用户

提问于 2021-01-15 22:28:20

回答 2查看 31关注 0票数 1

我刚刚升级到使用spark 3而不是spark 2.4。

以下代码在spark 2.4中运行良好

df = spark.read.parquet('s3a://bucket/path/{'+
                                      'file1,'+
                                      'file2,'+
                                      'file3,'+
                                      'file4,'+
                                      'file5,'+
                                      'file6,'+
                                      'file7,'+
                                      'file8,'+
                                      'file9,'+
                                      'file10,'+
                                      'file11,'+
                                      'file12,'+
                                      'file13,'+
                                      'file14,'+
                                      'file15,'+
                                      'file16,'+
                                      'file17,'+
                                      'file18,'+
                                      'file19,'+
                                      'file20,'+
                                      'file21,'+
                                      'file22,'+
                                      'file23,'+
                                      'file24,'+
                                      'file25'+
                                      '}')

但在spark 3中，我得到了这个错误：

Py4JJavaError: An error occurred while calling o944.parquet.
: org.apache.hadoop.fs.s3a.AWSS3IOException: getFileStatus on s3a://

...

com.amazonaws.services.s3.model.AmazonS3Exception: Bad Request (Service: Amazon S3; Status Code: 400; Error Code: 400 Bad Request; Request ID: aaa), S3 Extended Request ID:

如果我将文件数量减少到小于24个，那么查询将在spark 3中成功完成。

在s3中，我找不到任何关于像这样的括号扩展中的文件数量限制的参考。可能出了什么问题？如何修复呢？

pyspark

brace-expansion

apache-spark

amazon-s3

有奖征集｜云上CPU玩转AIGC挑战赛

参加活动赢取洛斐键盘、小米电纸书、智能音响等鹅厂周边！

回答 2

Stack Overflow用户

发布于 2021-01-19 15:31:36

为什么不让spark处理整个目录，让它扫描文件呢？

df = spark.read.parquet('s3a://bucket/path/')

票数 0

Stack Overflow用户

发布于 2021-01-21 01:49:09

aws查询不能超过1024个字符。不知何故，这在spark 2中不是问题。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/65744364

复制

读取csv（tsv）文件出错

csv

用以下语句读tsv文件：df_in=pd.read_csv('../data/voyage_report_20220623.tsv', sep='\t')报错如下：ParserError: Error tokenizing data. C error: EOF inside string starting at row 15212改成：df_in=pd.read_csv('../data/voyage_report_20220623.tsv', sep='\t',quoting=csv.QUOTE_NONE

西西木木

2022/06/24

2K0

linux/shell:读取包含'.'键名的.properties文件

java linux shell

如果properties中的key名只是由字母数字组成，那读取properties中的property很简单，示例如下：

10km

2019/07/02

3.4K0

R中读取包含中文字符的文件时这个诡异的错误你见过吗?

file fread line table txt

尝试读入R，报错 line 2 did not have 2 elements 很诡异的提示！！！

生信宝典

2022/01/18

2.3K0

spark批量读取大量小文件的办法

spark txt 遍历多线程

在实际工程中，经常会遇到要一起读取众多小文件的办法。本来正常情况下是进行文件夹的遍历。

sparkexpert

2022/05/07

1.2K0

使用Spark读取Hive中的数据

spark hive 大数据 mapreduce 官方文档

在默认情况下，Hive使用MapReduce来对数据进行操作和运算，即将HQL语句翻译成MapReduce作业执行。而MapReduce的执行速度是比较慢的，一种改进方案就是使用Spark来进行数据的查找和运算。Hive和Spark的结合使用有两种方式，一种称为Hive on Spark：即将Hive底层的运算引擎由MapReduce切换为Spark，官方文档在这里：Hive on Spark: Getting Started。还有一种方式，可以称之为Spark on Hive：即使用Hive作为Spark的数据源，用Spark来读取HIVE的表数据（数据仍存储在HDFS上）。

张子阳

2018/09/28

11.3K0

Python Numpy 从文件中读取数据

txt 测试

测试文件内容(test1.txt) hello,123,nihao 8,9,10 io,he,no 测试代码 import numpy # dtype：默认读取数据类型，delimiter：分隔符 world_alcohol = numpy.genfromtxt("test1.txt", dtype=str, delimiter=",") # 数据结构 print(type(world_alcohol)) # 数据内容 print(world_alcohol) # 帮助文档 print(help(nump

山海散人

2021/03/03

4.2K0

在Shell脚本中逐行读取文件的命令方法

bash bash 指令网站编程算法 linux

为了演示，在此创建一个名为“ mycontent.txt”的文本文件，文件内容在下面：

用户7639835

2021/12/03

9.3K0

Spark Tips 2: 在Spark Streaming中均匀分配从Kafka directStream 中读出的数据

java

下面这段code用于在Spark Streaming job中读取Kafka的message： ...... JavaPairInputDStream<String,String> messages =KafkaUtils.createDirectStream( jssc, String.class, String.class, StringDecoder.class, StringDecoder.class, kafkaParams, topicsSet ); JavaDStream<String>lin

叶锦鲤

2018/03/15

1.5K0

Spark Core快速入门系列(11) | 文件中数据的读取和保存

json spark hadoop 云数据库 SQL Server api

从文件中读取数据是创建 RDD 的一种方式. 把数据保存的文件中的操作是一种 Action. Spark 的数据读取及数据保存可以从两个维度来作区分：文件格式以及文件系统。文件格式分为：Text文件、Json文件、csv文件、Sequence文件以及Object文件；文件系统分为：本地文件系统、HDFS、Hbase 以及数据库。平时用的比较多的就是: 从 HDFS 读取和保存 Text 文件.

不温卜火

2020/10/28

2K0

Phoenix填坑记2：phoenix-5.0 在hbase2.0.1及以上版本，在使用索引时出错

hbase TDSQL MySQL 版

截止到2020年12月，Phoenix最高只支持到Hbase2.0版本，并不支持更高的版本。而我们采用的是腾讯云HBase，使用的版本是2.2.0版本，我们在使用Phoenix-5.0版本时，发现系统报错，无法正常使用。

源哥

2021/01/02

3.8K1

spark读取多个文件夹(嵌套)下的多个文件

spark 腾讯云测试服务

在正常调用过程中，难免需要对多个文件夹下的多个文件进行读取，然而之前只是明确了spark具备读取多个文件的能力。

sparkexpert

2022/05/07

3.2K0

pyspark之从HDFS上读取文件、从本地读取文件

hdfs

hdfs上的路径： path="hdfs:///主机名:端口号/地址" 本地上的路径： path"file:///本地地址" 读取文件： rdd=sc.textFile(path)

西西嘛呦

2020/08/26

5.1K0

【Spark篇】---Spark中Shuffle文件的寻址

spark 缓存

Spark中Shuffle文件的寻址是一个文件底层的管理机制，所以还是有必要了解一下的。

LhWorld哥陪你聊算法

2018/09/13

7840

Spark Tips3: 在Spark Streaming job中读取Kafka messages及其offsetRange

java

在Spark Streaming job中读取Kafka topic(s)中的messages时，有时我们会需要同步记录下每次读取的messages的offsetRange。要达到这一目的，下面这两段代码（代码1和代码2）都是正确的，而且是等价的。代码1（正确）： ----------------------- JavaPairInputDStream<String, String> messages = KafkaUtils.createDirectStream( jssc,

叶锦鲤

2018/03/15

1.6K0

Nodejs中读取文件目录中的所有文件

node.js

关于Nodejs中的文件系统即File System可以参考官方Node.js v12.18.1的文档File system

ccf19881030

2020/06/28

14.8K0

[源码剖析]Spark读取配置Spark读取配置

其他

我们知道，有一些配置可以在多个地方配置。以配置executor的memory为例，有以下三种方式：

codingforfun

2018/08/24

1.6K0

spark2 sql读取json文件的格式要求

spark sql json 人工智能 shell

问题导读 1.spark2 sql如何读取json文件？ 2.spark2读取json格式文件有什么要求？ 3.spark2是如何处理对于带有表名信息的json文件的? spark有多个数据源，

用户1410343

2018/03/26

2.5K0

matlab读取mnist数据集(c语言从文件中读取数据)

matlab https java 网络安全

mnist database（手写字符识别）的数据集下载地：http://yann.lecun.com/exdb/mnist/。

全栈程序员站长

2022/08/01

5K0

点击加载更多

相似问题

读取Spark中的文件时出错

在Spark中读取CSV文件时出错

Spark Streaming -从Kinesis读取时出错

Apache Spark:运行命令从HDFS读取文件时出错

在Scala IDE中读取spark代码中的avro文件时出错

422

活动推荐

即时通信IM，低门槛快速接入

添加站长进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

问在amazon-s3中包含从spark读取的~25个以上的文件时出错
EN

有奖征集｜云上CPU玩转AIGC挑战赛

回答 2

Stack Overflow用户

Stack Overflow用户

读取Spark中的文件时出错

在Spark中读取CSV文件时出错

Spark Streaming -从Kinesis读取时出错

Apache Spark:运行命令从HDFS读取文件时出错

在Scala IDE中读取spark代码中的avro文件时出错

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在amazon-s3中包含从spark读取的~25个以上的文件时出错EN

有奖征集｜云上CPU玩转AIGC挑战赛

回答 2

Stack Overflow用户

Stack Overflow用户

读取Spark中的文件时出错

在Spark中读取CSV文件时出错

Spark Streaming -从Kinesis读取时出错

Apache Spark:运行命令从HDFS读取文件时出错

在Scala IDE中读取spark代码中的avro文件时出错

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在amazon-s3中包含从spark读取的~25个以上的文件时出错
EN