SparkSession读取存储在亚马逊网络服务s3中的csv文件的方法是什么？

文章/答案/技术大牛

发布

2回答

如何在亚马逊网络服务的S3存储桶中使用Java读取压缩的CSV文件？

java、csv、amazon-web-services、amazon-s3

我有一个要求，我必须从S3存储桶中读取.csv文件。BufferedReader reader = new BufferedReader(new InputStreamReader(s3Obj.getObjectContent())); 现在，同样的.csv文件以存档(压缩)的形式呈现在亚马逊网络服务的S3存储桶中</

浏览 0提问于2015-01-27得票数 2

1回答

如何使用pyspark从s3存储桶中读取csv文件

amazon-web-services、apache-spark、amazon-s3、pyspark

我使用的是Apache Spark 3.1.0和Python 3.9.6。我正在尝试从亚马逊网络服务的S3存储桶中读取csv文件，如下所示： spark = SparkSession.builder.getOrCreate() c = spark.rea

浏览 167提问于2021-08-25得票数 2

回答已采纳

4回答

如何在Python中使用Pandas从s3存储桶中读取csv文件

python、amazon-web-services、pandas、amazon-s3

我正在尝试使用以下代码将位于亚马逊网络服务S3存储桶中的CSV文件作为pandas数据帧读取到内存中：import boto data = pd.read_csv('s3:/example_bucket.s3-website-ap-southeast-2.amazonaws.com/data_1.cs

浏览 1提问于2015-06-13得票数 18

2回答

谁删除了S3存储桶中的文件？

amazon-web-services、amazon-s3

找出谁在亚马逊网络服务S3存储桶中删除文件的最佳方法是什么？我在亚马逊网络服务的S3桶上工作。正在浏览亚马逊网络服务的文档，但还没有找到监控S3存储桶的最好方法，所以我想看看是否有人可以在这里帮助我。

浏览 1提问于2020-08-04得票数 1

1回答

在(浏览器) javascript中读取大型CSV文件的标题(仅限)

javascript、angular、csv、http

我正在尝试使用Javascript读取存储在亚马逊网络服务S3上的一个大文件的CSV头文件。我想知道是否有一种方法可以只读取头文件而不读取整个文件。我尝试过使用d3.csv和http.get，但这两个都加载了整个文件。有什么建议吗？

浏览 0提问于2019-04-05得票数 0

4回答

如何在浏览器中编辑亚马逊S3中的文件？

amazon-web-services、amazon-s3、cloud、text-editor

我已经在亚马逊的S3系统上托管了我的主页。为了更改页面上的信息，目前，我必须更改计算机上的文件并上传新版本。但是，我想在浏览器中直接更改S3存储桶中的文件(在任何地方更改它)。是否有一个基于云的文本编辑器，可以使用S3作为“文件系统”，并允许我更改文本文件(例如，超文本标记语言、css、js等

浏览 13提问于2012-12-29得票数 30

1回答

java、csv、apache-spark、dataframe、amazon-s3

我想利用Apache Spark中的函数从我的S3存储桶中提取CSV内容。显然，在DataFrameReader的.csv()方法中使用内容的url作为参数是行不通的(例如sparkSession.reader().csv(...))。看起来我可能必须先使用Java SDK访问存储空间，然后进行一些解析，以将数据转换为Datas

浏览 15提问于2018-02-25得票数 0

1回答

从亚马逊网络服务s3存储桶中读取镶木地板数据

java、amazon-web-services、amazon-s3、parquet

我需要从亚马逊网络服务s3读取镶木地板数据。, bucketKey));但是apache parquet阅读器只使用如下的本地文件： .build();所以我不知道如何解析parquet文件的输入流例如，

浏览 0提问于2017-10-19得票数 14

回答已采纳

2回答

将150个csv摄取到一个数据源

python、elasticsearch、bigdata

你好，我是一个全新的处理大数据的新手，在python中我有150个csv，每个大小为70MB，我必须将其集成到一个源中，以删除基本的统计数据，如唯一的计数，唯一的名称等等。我偶然发现了python中的一个包'pyelastic search‘，这对我来说是多么的可行。需要建议！

浏览 11提问于2017-06-16得票数 2

回答已采纳

1回答

AWS中使用数据管道的批处理文件处理

amazon-web-services、batch-file、batch-processing、amazon-data-pipeline、aws-data-pipeline

我需要读取上传到s3存储桶的csv批处理文件，加密某些列中的数据，并将这些数据持久化到Dynamo DB表中。在持久化DynamoDB表中的每一行时，根据每行中的数据，我还需要生成一个ID并将其存储在DynamoDB表中。似乎亚马逊网络服务数据管道允许创建一

浏览 6提问于2021-03-21得票数 0

2回答

从EC2读取用于ML培训的S3存储桶

amazon-web-services、amazon-s3、amazon-ec2

我正在尝试在亚马逊网络服务EC2上训练一个机器学习模型。我目前有超过50 S3的数据存储在亚马逊网络服务的S3存储桶中。在EC2上训练我的模型时，我希望能够访问这些数据。从本质上讲，我希望能够调用此命令： python3 train_model.py --train_files /data/train.<em

浏览 0提问于2020-06-22得票数 0

1回答

使用Spark从S3读取csv时出现Py4JJavaError错误

amazon-web-services、csv、apache-spark、amazon-s3

我正在尝试用Spark从亚马逊网络服务的S3存储桶中读取CSV文件，目前正在通过Jupyter笔记本进行读取。在为spark设置亚马逊网络服务S3配置后，我在尝试读取CSV时遇到以下错误： Py4JJavaError: An error occurred while calling SOMERANDOMNAME

浏览 45提问于2021-02-10得票数 0

回答已采纳

2回答

获取Google存储桶内文件夹的临时访问权限

amazon-s3、google-cloud-storage

我正在寻找方法，如何提供临时访问“文件夹”内谷歌云存储。我的问题:我有很多“文件夹”的存储桶(我知道那个文件夹在GCS上不存在)。(自动到期的东西)来读取Bucket/Folder1/*，这样用户将能够访问整个目录"Folder1“并下载该目录中的所有文件(File2.csv，File3.csv，

浏览 19提问于2019-07-25得票数 0

4回答

红移频谱的性能问题

amazon-web-services、amazon-s3、amazon-redshift、amazon-redshift-spectrum

我使用的是红移频谱。我创建了一个外部表，并在S3上上传了一个包含大约550万条记录的csv数据文件。如果在这个外部表上执行查询，大约需要15秒，而如果我在Amazon redshift上运行相同的查询，我在大约2秒内就会得到相同的结果。当AWS声称它是非常高性能的平台时，这种性能滞后的原因可能是什么？请使用spectrum建议相同性能的解决方案。

浏览 24提问于2017-07-06得票数 2

回答已采纳

1回答

Flink Streaming AWS S3并行读取多个文件

amazon-s3、apache-flink、flink-streaming、flink-cep

我是Flink的新手，我的理解是遵循API调用将并行读取给定S3存储桶路径的文件。我们将日志文件存储在S3中。要求是为多个客户端请求提供服务，以便使用时间戳从不同的文件夹读取数

浏览 49提问于2017-07-18得票数 2

3回答

从R访问S3存储桶

r、amazon-web-services、amazon-ec2、amazon-s3

我已经在亚马逊网络服务上的EC2实例上设置了R。我上传到S3存储桶中的csv文件很少。我想知道是否有办法从R访问S3存储桶中的csv文件。如有任何帮助或建议，将不胜感激。

浏览 3提问于2014-10-09得票数 8

1回答

异常: Java网关进程在使用pyspark发送其端口号之前退出

python、amazon-s3、pyspark、parquet

我在一台jupyter笔记本上使用python和pyspark。我正在尝试从亚马逊网络服务的s3存储桶中读取几个拼图文件，并将它们转换为单个json文件。key in bucket.objects.all(): from pyspark.sql import SparkSession# initialise

浏览 3提问于2020-07-18得票数 1

1回答

无需下载即可读取s3存储桶上的文件内容

python、r、amazon-s3

我是亚马逊网络服务和s3的新手，所以请原谅，如果这看起来我还没有尝试过任何东西。我想遍历目录和文件，读取文件，并在不下载的情况下从可公开访问的s3存储桶：s3://cgl-rnaseq-recompute-fixed/中检索特定的行。我只希望能够在文件内容上执行基本任务，如grep

浏览 2提问于2016-08-06得票数 1

2回答

如何在heroku上临时存储文件以延迟作业导入

ruby-on-rails、heroku、delayed-job

我在我的rails应用程序中有一个导入功能，可以导入CSV文件并相应地更新记录。随着这个文件变得越来越大，请求需要更长的时间，最终会超时。因此，我选择实现delayed_job来处理长时间运行的请求。唯一的问题是，当作业运行时，会抛出错误消息Errno::ENOENT: No such file or directory。这是因为我的解决方案使用内存中的CSV文件

浏览 10提问于2016-09-03得票数 0

回答已采纳

1回答

如何在Heroku上存储上传的文件以供以后处理？

php、heroku、amazon-web-services、amazon-s3

我正在写一个PHP应用程序，将处理上传的文件。包含一些CSV、图像等的ZIP。如果在处理文件时出现警告/错误，则该过程需要用户输入，并且同一文件应可用于稍后重新处理。在普通服务器上，我使用文件系统来存储文件，然后将路径保存在我的数据库中。然而，在Heroku中我不能这样做。我正在使用亚马逊网络服务<

浏览 0提问于2015-04-28得票数 0

点击加载更多

如何在亚马逊网络服务的S3存储桶中使用Java读取压缩的CSV文件？

如何使用pyspark从s3存储桶中读取csv文件

如何在Python中使用Pandas从s3存储桶中读取csv文件

谁删除了S3存储桶中的文件？

在(浏览器) javascript中读取大型CSV文件的标题(仅限)

如何在浏览器中编辑亚马逊S3中的文件？