读取单独spark数据帧中不同文件夹中的多个json文件_如何使用spark.read.jdbc读取不同Pyspark数据帧中的多个文件_将多个csv文件读取到单独的pandas数据帧中 - 腾讯云开发者社区

、、

我有一个名为data的目录。在这个目录中有四个子目录：01、02、03和04。在这些目录中是我想要加载到每个子目录的spark dataframe中的成百上千个JSON文件。做这件事最好的方法是什么？directories = ['01', '02', '03', '04'] filepath =

浏览 20提问于2021-05-06得票数 1

回答已采纳

1回答

只读拼图文件

、

我想从一个文件夹中读取多个拼图文件，该文件夹还包含一些其他文件类型(csv，avro)到一个数据帧中。我只想读它的拼花，跳过并转到下一步，如果有其他的。问题是，parquet文件可能没有扩展名，编解码器也可能因文件不同而不同。在Spark-scala中有办法做到这一点吗？

浏览 11提问于2019-05-06得票数 1

1回答

使用通配符读取物理分区的数据

、、、

如果我使用以下语法读取此数据帧： df = spark.read.json("s3://bucket/df)" 没有扩展名的文件将是我的数据帧的一部分，这是不可取的。因此，我只想考虑包含以下内容的文件.json扩展。因此，我决定读取此数据<e

浏览 50提问于2021-02-20得票数 1

回答已采纳

1回答

如何读取文件夹中的CSV文件并合并到一个CSV文件中？

、、、

我有一个标签为‘输入’的文件夹，里面有多个CSV文件。它们都有相同的列名，但每个CSV文件中的数据是不同的。如何使用Spark和Java转到标记为“input”的文件夹，读取该文件夹中的所有CSV文件，并将这些CSV文件合并到一个文

浏览 0提问于2021-10-06得票数 2

回答已采纳

1回答

在databricks中使用pyspark将多个json文件从blob存储读取到dataframe

、、、

我正在尝试获取存储在blob存储中的子文件夹中的单个容器中的所有json文件。我已经在databricks中设置了环境并链接了连接。目前，我正在使用以下代码 df = spark.read.json("wasbs://container_name@blob_storage_account.blob.core.windows.net/sub_f

浏览 38提问于2021-11-03得票数 0

1回答

是否可以解压HDFS上的tar.gz文件并将其放入不同的HDFS文件夹中，而不将其带到本地系统

、、、

我有employee_mumbai.tar.gz文件在里面，我有name.json和salary.json。并且tar.gz存在于HDFS位置。是否可以解压/解压缩gzip文件并将json文件放在HFDS文件夹中，而不将其放到本地文件系统中。注意:请记住，这不是文本文件，而是json文件的唯一信息。请让我知道这是否可以实现读取<

浏览 24提问于2020-03-11得票数 0

1回答

读取路径并加载路径中的数据，并捕获数据帧中的路径详细信息

、、

我正在读取多个路径，并使用以下命令加载这些路径中的拼图文件： val paths = List("/mnt/datamount/tmp/fldr=2345","/mnt/datamount/tmp/fldr=1234","/mnt/datamount/tmp/fldr=5678") 下面是读取命令： val r

浏览 19提问于2021-03-19得票数 0

1回答

使用Spark* 2.4与Spark 3读取多个JSON文件*

、、

我不得不从Azure数据湖中读取一堆JSON文件。我使用Databricks，当我使用Spark 2.4.5的集群时，我能够读取所有的文件，但当我使用Spark 3.0.1时，返回的数据帧是空的。我正在使用以下命令， dfa = spark.read.json("dbfs:/mnt/

浏览 32提问于2021-05-14得票数 0

1回答

如何从火花中具有不同格式的多个文件创建一个DataFrame？

、

我知道我可以使用spark.read.csv()或spark.read.json()将CSV文件或JSON文件作为一个DataFrame加载，但是如果我的源文件实际上是不同格式的，例如，我的一些原始数据在CSV文件中，而另一些在JSON文件中呢？我是否可以创建一个包含来自CSV和JSO

浏览 0提问于2021-08-14得票数 0

回答已采纳

1回答

火花:如何递归读取目录中所有扩展名不同的文件？

、、

└── f2.parquet ├── a └── b是否有一种方法可以跳过一些文件(有一些未知的扩展名)，而使用火花阅读。我可以读取目录中的所有文件吗？

浏览 0提问于2021-08-03得票数 1

回答已采纳

1回答

如何在使用scala从文件夹中读取所有json文件时应用过滤器？

我有一个文件夹，其中有多个json文件(first.json，second.json) .Using scala我正在加载所有的json文件数据到rdd/ spark的数据集，然后对数据应用过滤器。这里的问题是，如果我们有600个数据，那么我们需要将所有数据加载到rdd/dataset<em

浏览 8提问于2019-11-08得票数 0

1回答

当读取文件时，分区的数量是如何由Spark决定的？

、、、

当读取文件时，分区的数量是如何由Spark决定的？假设hdfs目录中有一个10 GB的单个文件，而另一个hdfs位置是10 GB卷的多个部分文件。如果这两个文件是在两个单独的星火数据帧中读取的，那么它们的分区数以及基于什么逻辑呢？

浏览 2提问于2020-03-01得票数 2

1回答

避免在Spark* Scala DataFrame中加入*

、、、

我必须基于位于Azure Blob存储文件夹中的JSON文件进行计算。我正在Azure HDInsight上开发Apache Spark。此文件夹有一个与跟踪顺序相关的编号。如果存在一个较大的数字，我必须读取此文件夹的JSON，并丢弃具有较小数字的文件夹。例如，如果我有一个名称为20200501-1和20200501-2<em

浏览 21提问于2020-06-11得票数 1

回答已采纳

1回答

数据流活动Azure数据工厂中的并发文件处理

但是，当阅读以下来自微软()的文章中有关数据流的内容时，它们指出如下：当源转换迭代多个文件时，映射数据流将执行得更好，而不是通过每个活动循环。建议在源转换中使用通配符或文件列表。例如，如果您有一个希望在Blob中的文件夹中处理的2019年7月的数据文件列表，下面是您可以在Source转换中使用的通配符。<em

浏览 2提问于2020-05-19得票数 1

回答已采纳

1回答

将文件从S3存储桶读取到PySpark数据帧Boto3

、、、

如何将S3存储桶中的大量文件加载到单个PySpark数据帧中？我在一个EMR实例上运行。如果文件是本地的，我可以使用SparkContext textFile方法。但是当文件在S3上时，我如何使用boto3加载多个不同类型的文件(CSV，JSON，...)转换成一个单独的数据帧</em

浏览 0提问于2018-05-29得票数 3

回答已采纳

1回答

Pyspark-将每个数据帧保存到单个文件

、

我正在尝试将过滤后的数据帧保存回相同的源文件。我编写了以下代码，将目录中每个文件的内容转换为单独的Dataframe，对其进行过滤，然后将其保存回相同的文件list_elements = rdd.collect() for element in list_element

浏览 17提问于2020-06-02得票数 0

1回答

在阅读tar.gz存档时使用特定模式过滤文件

、、、、

我的文件夹myfolder.tar.gz中有多个CSV文件。我以这种方式创建了它:首先将所有文件放在文件夹名myfolder中，然后准备一个tar文件夹。然后准备这个tar文件夹的.gz。假设我们有5份文件。abc_2.csvdef_1.csv我希望使用Pyspark数据帧过滤特定文件</e

浏览 1提问于2021-02-04得票数 1

回答已采纳

2回答

是否有可能将具有相同或不同顺序的相同头或头子集的多个csv文件读入火花数据帧？

、、、

我有许多csv文件在一个文件夹中，要加载到火花数据帧。它们都有相同的标头或一个标头，这是最长标头的子集，但顺序不同。文件1头- "a","b","c" 我有一个有

浏览 7提问于2016-11-16得票数 4

1回答

writeStream:在一个单独的json文件中的每个数据帧行

、、

我正在使用pyspark将Kafka主题中的数据作为流数据读取，如下所示： .appName("Spark Structured Streaming) 我的目标是将每个sdf_行编写为分离的 json文件。中写入几行数据，这取决于微批处理的大小(至少这是我的假设)。我需要

浏览 2提问于2020-03-12得票数 0

回答已采纳

1回答

在文件夹中读取增量表特定文件

、、、

我试图从包含多个增量文件的文件夹中读取一个特定的文件，请参阅附带的屏幕截图。df.write.format("delta").mode(

浏览 14提问于2022-10-20得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云