腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
读取
单独
spark
数据
帧
中
不同
文件夹
中
的
多个
json
文件
、
、
我有一个名为data
的
目录。在这个目录中有四个子目录:01、02、03和04。在这些目录
中
是我想要加载到每个子目录
的
spark
dataframe
中
的
成百上千个
JSON
文件
。做这件事最好
的
方法是什么?directories = ['01', '02', '03', '04'] filepath =
浏览 20
提问于2021-05-06
得票数 1
回答已采纳
1
回答
只读拼图
文件
、
我想从一个
文件夹
中
读取
多个
拼图
文件
,该
文件夹
还包含一些其他
文件
类型(csv,avro)到一个
数据
帧
中
。我只想读它
的
拼花,跳过并转到下一步,如果有其他
的
。问题是,parquet
文件
可能没有扩展名,编解码器也可能因
文件
不同
而
不同
。在
Spark
-scala中有办法做到这一点吗?
浏览 11
提问于2019-05-06
得票数 1
1
回答
使用通配符
读取
物理分区
的
数据
、
、
、
如果我使用以下语法
读取
此
数据
帧
: df =
spark
.read.
json
("s3://bucket/df)" 没有扩展名
的
文件
将是我
的
数据
帧
的
一部分,这是不可取
的
。因此,我只想考虑包含以下内容
的
文件
.
json
扩展。 因此,我决定
读取
此
数据
<e
浏览 50
提问于2021-02-20
得票数 1
回答已采纳
1
回答
如何
读取
文件夹
中
的
CSV
文件
并合并到一个CSV
文件
中
?
、
、
、
我有一个标签为‘输入’
的
文件夹
,里面有
多个
CSV
文件
。它们都有相同
的
列名,但每个CSV
文件
中
的
数据
是
不同
的
。如何使用
Spark
和Java转到标记为“input”
的
文件夹
,
读取
该
文件夹
中
的
所有CSV
文件
,并将这些CSV
文件
合并到一个
文
浏览 0
提问于2021-10-06
得票数 2
回答已采纳
1
回答
在databricks中使用pyspark将
多个
json
文件
从blob存储
读取
到dataframe
、
、
、
我正在尝试获取存储在blob存储
中
的
子
文件夹
中
的
单个容器
中
的
所有
json
文件
。我已经在databricks
中
设置了环境并链接了连接。目前,我正在使用以下代码 df =
spark
.read.
json
("wasbs://container_name@blob_storage_account.blob.core.windows.net/sub_f
浏览 38
提问于2021-11-03
得票数 0
1
回答
是否可以解压HDFS上
的
tar.gz
文件
并将其放入
不同
的
HDFS
文件夹
中
,而不将其带到本地系统
、
、
、
我有employee_mumbai.tar.gz
文件
在里面,我有name.
json
和salary.
json
。并且tar.gz存在于HDFS位置。是否可以解压/解压缩gzip
文件
并将
json
文件
放在HFDS
文件夹
中
,而不将其放到本地
文件
系统
中
。注意:请记住,这不是文本
文件
,而是
json
文件
的
唯一信息。请让我知道这是否可以实现
读取<
浏览 24
提问于2020-03-11
得票数 0
1
回答
读取
路径并加载路径
中
的
数据
,并捕获
数据
帧
中
的
路径详细信息
、
、
我正在
读取
多个
路径,并使用以下命令加载这些路径
中
的
拼图
文件
: val paths = List("/mnt/datamount/tmp/fldr=2345","/mnt/datamount/tmp/fldr=1234","/mnt/datamount/tmp/fldr=5678") 下面是
读取
命令: val r
浏览 19
提问于2021-03-19
得票数 0
1
回答
使用
Spark
2.4与
Spark
3
读取
多个
JSON
文件
、
、
我不得不从Azure
数据
湖
中
读取
一堆
JSON
文件
。我使用Databricks,当我使用
Spark
2.4.5
的
集群时,我能够
读取
所有的
文件
,但当我使用
Spark
3.0.1时,返回
的
数据
帧
是空
的
。我正在使用以下命令, dfa =
spark
.read.
json
("dbfs:/mnt/
浏览 32
提问于2021-05-14
得票数 0
1
回答
如何从火花中具有
不同
格式
的
多个
文件
创建一个DataFrame?
、
我知道我可以使用
spark
.read.csv()或
spark
.read.
json
()将CSV
文件
或
JSON
文件
作为一个DataFrame加载,但是如果我
的
源
文件
实际上是
不同
格式
的
,例如,我
的
一些原始
数据
在CSV
文件
中
,而另一些在
JSON
文件
中
呢?我是否可以创建一个包含来自CSV和
JSO
浏览 0
提问于2021-08-14
得票数 0
回答已采纳
1
回答
火花:如何递归
读取
目录中所有扩展名
不同
的
文件
?
、
、
└── f2.parquet ├── a └── b是否有一种方法可以跳过一些
文件
(有一些未知
的
扩展名),而使用火花阅读。我可以
读取
目录
中
的
所有
文件
吗?
浏览 0
提问于2021-08-03
得票数 1
回答已采纳
1
回答
如何在使用scala从
文件夹
中
读取
所有
json
文件
时应用过滤器?
我有一个
文件夹
,其中有
多个
json
文件
(first.
json
,second.
json
) .Using scala我正在加载所有的
json
文件
数据
到rdd/
spark
的
数据
集,然后对
数据
应用过滤器。这里
的
问题是,如果我们有600个
数据
,那么我们需要将所有
数据
加载到rdd/dataset<em
浏览 8
提问于2019-11-08
得票数 0
1
回答
当
读取
文件
时,分区
的
数量是如何由
Spark
决定
的
?
、
、
、
当
读取
文件
时,分区
的
数量是如何由
Spark
决定
的
? 假设hdfs目录中有一个10 GB
的
单个
文件
,而另一个hdfs位置是10 GB卷
的
多个
部分
文件
。如果这两个
文件
是在两个
单独
的
星火
数据
帧
中
读取
的
,那么它们
的
分区数以及基于什么逻辑呢?
浏览 2
提问于2020-03-01
得票数 2
1
回答
避免在
Spark
Scala DataFrame中加入
、
、
、
我必须基于位于Azure Blob存储
文件夹
中
的
JSON
文件
进行计算。我正在Azure HDInsight上开发Apache
Spark
。 此
文件夹
有一个与跟踪顺序相关
的
编号。如果存在一个较大
的
数字,我必须
读取
此
文件夹
的
JSON
,并丢弃具有较小数字
的
文件夹
。例如,如果我有一个名称为20200501-1和20200501-2<em
浏览 21
提问于2020-06-11
得票数 1
回答已采纳
1
回答
数据
流活动Azure
数据
工厂
中
的
并发
文件
处理
但是,当阅读以下来自微软()
的
文章中有关
数据
流
的
内容时,它们指出如下: 当源转换迭代
多个
文件
时,映射
数据
流将执行得更好,而不是通过每个活动循环。建议在源转换中使用通配符或
文件
列表。例如,如果您有一个希望在Blob
中
的
文件夹
中
处理
的
2019年7月
的
数据
文件
列表,下面是您可以在Source转换中使用
的
通配符。<em
浏览 2
提问于2020-05-19
得票数 1
回答已采纳
1
回答
将
文件
从S3存储桶
读取
到PySpark
数据
帧
Boto3
、
、
、
如何将S3存储桶
中
的
大量
文件
加载到单个PySpark
数据
帧
中
?我在一个EMR实例上运行。如果
文件
是本地
的
,我可以使用SparkContext textFile方法。但是当
文件
在S3上时,我如何使用boto3加载
多个
不同
类型
的
文件
(CSV,
JSON
,...)转换成一个
单独
的
数据
帧</em
浏览 0
提问于2018-05-29
得票数 3
回答已采纳
1
回答
Pyspark-将每个
数据
帧
保存到单个
文件
、
我正在尝试将过滤后
的
数据
帧
保存回相同
的
源
文件
。我编写了以下代码,将目录
中
每个
文件
的
内容转换为
单独
的
Dataframe,对其进行过滤,然后将其保存回相同
的
文件
list_elements = rdd.collect() for element in list_element
浏览 17
提问于2020-06-02
得票数 0
1
回答
在阅读tar.gz存档时使用特定模式过滤
文件
、
、
、
、
我
的
文件夹
myfolder.tar.gz中有
多个
CSV
文件
。我以这种方式创建了它:首先将所有
文件
放在
文件夹
名myfolder
中
,然后准备一个tar
文件夹
。然后准备这个tar
文件夹
的
.gz。假设我们有5份
文件
。abc_2.csvdef_1.csv我希望使用Pyspark
数据
帧
过滤特定
文件</e
浏览 1
提问于2021-02-04
得票数 1
回答已采纳
2
回答
是否有可能将具有相同或
不同
顺序
的
相同头或头子集
的
多个
csv
文件
读入火花
数据
帧
?
、
、
、
我有许多csv
文件
在一个
文件夹
中
,要加载到火花
数据
帧
。它们都有相同
的
标头或一个标头,这是最长标头
的
子集,但顺序
不同
。
文件
1头- "a","b","c" 我有一个有
浏览 7
提问于2016-11-16
得票数 4
1
回答
writeStream:在一个
单独
的
json
文件
中
的
每个
数据
帧
行
、
、
我正在使用pyspark将Kafka主题中
的
数据
作为流
数据
读取
,如下所示: .appName("
Spark
Structured Streaming) 我
的
目标是将每个sdf_行编写为分离
的
json
文件
。
中
写入几行
数据
,这取决于微批处理
的
大小(至少这是我
的
假设)。我需要
浏览 2
提问于2020-03-12
得票数 0
回答已采纳
1
回答
在
文件夹
中
读取
增量表特定
文件
、
、
、
我试图从包含
多个
增量
文件
的
文件夹
中
读取
一个特定
的
文件
,请参阅附带
的
屏幕截图。df.write.format("delta").mode(
浏览 14
提问于2022-10-20
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
python如何读取CSV文件中的特定行数据
Python识别文件名中的字段从而分类、归档栅格文件到不同文件夹
如何用python代码将json文件中的数据格式化
Python筛选出多个Excel中数据缺失率高的文件
Apache Spark 2.4 内置的 Avro 数据源实战
热门
标签
更多标签
云服务器
ICP备案
对象存储
即时通信 IM
实时音视频
活动推荐
运营活动
广告
关闭
领券