腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
spark
python
读取
多个
csv
到
dataframe
、
、
我在一个数据记录上有
多个
csv
文件。我可以连接到datalake,甚至可以列出文件。但我需要将这些文件放在一个数据帧中,以便可以将此数据帧加载到SQL中。加载到SQL也没有问题。问题是,只有datalakefolder中的最后一个文件的内容被读写到SQL中(因此也在
dataframe
中)。可能是因为每次都会覆盖数据帧。但我不知道如何在每个周期中将数据附加到数据帧中。filename = file.name tablename = "Obelix"
浏览 53
提问于2020-01-24
得票数 0
回答已采纳
3
回答
利用火花放电在循环中添加火花DataFrames的有效方法
、
、
、
、
低效方式( 2)在循环中,
读取
文本文件以激发
dataframe
df1,并将其附加到空中。df =
spark
.createDataFrame([],schema) filepath = '{}/{}'.format(textfiles_dir,x)
浏览 7
提问于2020-03-27
得票数 2
回答已采纳
1
回答
如何在
Spark
中处理
多个
csv
.gz文件?
、
、
、
、
我有一个包含
多个
表的大型数据集。每个表被分成数百个
csv
.gz文件,我需要通过PySpark将它们导入
到
Spark
中。有关于如何将"
csv
.gz“文件导入
到
Spark
的想法吗?
浏览 22
提问于2017-07-06
得票数 1
1
回答
在
spark
中从HDFS加载文件
、
我尝试从HDFS运行这个
spark
程序,因为当我在本地运行它时,我的pc上没有足够的内存来处理它。有人可以告诉我如何从HDFS加载
csv
文件,而不是在本地加载吗?下面是我的代码:import org.apache.
spark
.sql.Row;import org.apache.
spark
.sql.SparkSession; import
浏览 0
提问于2018-04-19
得票数 0
2
回答
数据砖.从文件夹中
读取
CSV
文件
、
从dbfs:/FileStore/shared_uploads/prasanth/Company.
csv
中选择* 我试图在蔚蓝数据砖中从文件夹中选择记录,但我面临以下错误:SQL语句: AnalysisException
浏览 3
提问于2022-10-21
得票数 0
3
回答
PySpark序列化EOFError
、
、
、
我正在以火花
DataFrame
的形式
读取
CSV
,并在其上执行机器学习操作。我一直得到一个
Python
序列化EOFError --知道为什么吗?conf)df = sqlContext.read.format('com.databricks.
spark
.
csv
').options(header='tru
浏览 5
提问于2016-04-12
得票数 34
1
回答
使用架构更改pyspark
dataframe
标头名称
、
、
我有10列左右的
csv
,我从不同的源获得数据,头名也不同。我试图使用模式更改标题名称,如下所示。True), return df_transform df = transform(
spark
.read.
csv</em
浏览 1
提问于2021-03-11
得票数 0
回答已采纳
2
回答
使用
spark
dataFrame
从HDFS加载数据
、
我们可以在从硬盘文件系统中
读取
数据时使用
DataFrame
吗?我在HDFS中有一个制表符分隔的数据。 我用谷歌搜索了一下,但我发现它可以用于NoSQL数据
浏览 1
提问于2016-06-05
得票数 5
回答已采纳
2
回答
Spark
错误地
读取
CSV
、
、
、
我想在
spark
中
读取
train.
csv
,但似乎
spark
不知何故无法正确
读取
该文件。我使用
python
将
csv
读取
到pandas中,它显示了正确的值1作为project_is_approved中的第一个条目。当我使用
spark
(scala)
读取
csv
时,我得到一个字符串,该字符串可能来自数据集中的其他地方。 为什么会发生这种情况?大多数示例使用我用来
读取
csv
浏览 0
提问于2018-06-08
得票数 0
1
回答
PySpark
DataFrame
写入空(零字节)文件
、
、
我正在使用
Spark
3.1.1版本的PySpark
DataFrame
API进行本地设置。在
读取
数据、执行一些转换等之后,我将
DataFrame
保存到磁盘。我试着用parquet和
csv
格式编写它,结果是一样的。在编写之前,我调用了df.show()以确保
DataFrame
中有数据。= SparkSession.builder.appName('My
Spark
App').getOrCreate() data =
spark
.r
浏览 8
提问于2022-05-11
得票数 1
2
回答
是否会在每次操作中从外部源
读取
数据?
、
、
在星火外壳上,我使用下面的代码从
csv
文件中
读取
val df =
spark
.read.format("org.apache.
spark
.
csv
").option("header", "true").option("mode", "DROPMALFORMED").
csv
("/opt/person.
csv
") //
浏览 5
提问于2016-12-05
得票数 1
回答已采纳
1
回答
将
python
数据对象保存到google存储中,从dataproc中运行的pyspark作业中保存文件。
、
、
、
我在使用dataproc运行pyspark作业时收集度量,并且无法在google存储中持久化它们(只使用
python
函数,而不是使用
Spark
)。关键是我可以保存它们,在执行过程中,我成功地
读取
和修改了它们,但是当作业结束时,我的google存储文件夹中什么都没有。pdf = pd
浏览 0
提问于2018-02-08
得票数 2
1
回答
读取
Spark
中的
多个
CSV
文件并生成
DataFrame
、
、
、
我使用下面的代码
读取
多个
csv
文件,并将它们转换为熊猫df,然后将其作为一个单独的熊猫df连接起来。最后再一次转换为星火
DataFrame
。我想跳过转换到熊猫df部分,只是想有火花
DataFrame
。=1/dayofmonth=1/hour=2/*.
csv
spark
_df =
spark
.read.format("<
浏览 1
提问于2021-04-14
得票数 1
回答已采纳
1
回答
将星星之火转换为熊猫的
dataframe
有例外:在使用基于文件的收集时不支持箭头。
、
、
、
、
我已经使用链接:尝试了引用代码#read file# Convert the
Spark
DataFrame
to a Pandas
DataFrame
pandas_df = df1.select
浏览 0
提问于2019-08-26
得票数 1
回答已采纳
1
回答
Azure Blob存储错误无法解析
spark
中的日期
、
、
我正在尝试使用
python
将azure datalake gen2中分配的文件
读取
到
spark
dataframe
中。代码是from pyspark.sql import SparkSession key =appName) \ .set("fs.azure.account.key.myaccount.dfs.core.wind
浏览 2
提问于2021-09-13
得票数 0
1
回答
Scala无法解析符号AnalysisException
在使用
spark
从S3
读取
文件时,我试图捕获一些异常,如果Path does not exist异常发生,我希望我的代码什么也不做。为此,我有如下代码:if (fileType == "
csv
"){
浏览 2
提问于2021-09-02
得票数 0
回答已采纳
1
回答
Pyspark从路径存储桶中
读取
csv
文件: AnalysisException: S3不存在
、
在Google Colab中,我正在尝试让PySpark从S3存储桶中
读取
csv
。"df =
spark
.read.
csv
(SparkFiles.get("filename.
csv
"), sep=",", header"----> 6 df =
spa
浏览 32
提问于2021-10-15
得票数 0
1
回答
AWS作业create_dynamic_frame_from_options()打开特定的文件?
、
、
、
如果使用create_dynamic_frame_from_catalog(),则提供数据库名称和表名,例如,从Glue爬虫中创建,这实际上是命名特定的输入文件。我希望能够在没有爬虫和数据库的情况下完成同样的操作(指定一个特定的输入文件)。
浏览 1
提问于2020-07-15
得票数 1
2
回答
在同一目录中创建具有和不具有标头的
多个
文件的PySpark
DataFrame
、
我正在尝试从包含
多个
文件的目录创建数据帧。在这些文件中,只有一个文件有头。我想使用infer schema选项从头部创建模式。但是,当我
读取
目录中的所有文件时flights =
spark
.read.
浏览 0
提问于2018-04-26
得票数 1
1
回答
PySpark如何将
CSV
读入数据帧,并对其进行操作
、
、
、
、
我对pyspark非常陌生,正在尝试使用它来处理一个保存为
csv
文件的大型数据集。我想将
CSV
文件读入
spark
dataframe
,删除一些列,然后添加新列。我该怎么做呢?这是我目前所学内容的精简版本: fields = data_portion.split(",")a, b: a.union(b)) .format(&q
浏览 2
提问于2016-10-30
得票数 7
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
使用python 打开并读取 csv 文件
使用Spark将本地文件读取并封装为DataFrame的完整指南
Python读取csv文件错误解决方法
python如何读取CSV文件中的特定行数据
Python读取JSON键值对并导出为.csv表格
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券