腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如何从
pyspark
dataframe中更快地
保存
csv
文件?
、
、
、
我目前在本地的windows10系统上使用
pyspark
。
pyspark
代码运行得相当快,但将
pyspark
数据帧
保存
为
csv
格式需要花费大量时间。我正在将
pyspark
数据帧转换为pandas,然后将其
保存
到
csv
文件中。我还尝试使用write方法来
保存
csv
文件。(1).write.format('com.databricks.spark.
csv
').option("
浏览 126
提问于2019-08-01
得票数 5
3
回答
Pyspark
EMR笔记本-无法将文件
保存
到EMR环境
、
、
我在电子病历上的
Pyspark
Notebook上工作,并使用toPandas()将
pyspark
数据帧转换为pandas数据帧。现在,我想使用以下代码将此数据帧
保存
到本地环境:但我一直收到权限错误:Traceback (most recent call last): File
浏览 9
提问于2020-06-25
得票数 2
1
回答
Pyspark
over zeppilin:无法导出为
csv
格式?
、
、
我正在尝试将数据帧导出到S3存储桶的.
csv
文件中。 不幸的是,它
保存
在拼图文件中。 谁能让我知道,如何得到出口火花源数据帧到.
csv
文件。我尝试了下面的代码: predictions.select("probability").write.format('
csv
').
csv
('s3a://bucketname/output/x1.
csv
') 它抛出这个错误:
CSV
数据
浏览 15
提问于2019-02-11
得票数 2
回答已采纳
2
回答
如何在单个
csv
文件中
保存
pyspark
数据帧
我正在努力将我的
pyspark
数据框架df
保存
在我的
pyspark
3.0.1中。所以我写了但是在执行这个命令之后,我在mypath中看到了一个名为df.
csv
的文件夹,它包含以下4个文件4. part-00000-.. .
csv
你能告诉我如何用df.
csv
保存
所有数据吗?
浏览 6
提问于2021-01-29
得票数 4
回答已采纳
2
回答
如何在
pyspark
中将映射字符串转换为映射
、
我有一个
csv
文件,如下所示(它是从
pyspark
输出中
保存
的) name_value"[quality1 -> good, quality2 -> excellent]" 如何使用
pyspark
读取此
csv
文件并将name_value列转换为映射类型?
浏览 42
提问于2021-10-04
得票数 0
回答已采纳
1
回答
Jupyter Cassandra
保存
问题- java.lang.NoClassDefFoundError: com/twitter/jsr166e/LongAdder
、
、
、
、
我正在使用Jupyter notebook,并希望将
csv
文件
保存
到cassandra数据库。在获取和显示数据时没有问题,但当我尝试将此
csv
数据
保存
到cassandra db时,它抛出以下异常。:spark-cassandra-connector_2.11:2.4.0
pyspark
-shell' from
pyspark
import SparkContext f
浏览 26
提问于2019-03-21
得票数 0
回答已采纳
2
回答
火花聚结和收集,哪一个更快?
、
、
我使用
pyspark
来处理50 15的数据,使用15 m4的AWS。for hour in range(24): hourly_df = df.filter(hourFilter("对象
保存
到1个
csv
文件(约1Mb),而不是100+
浏览 0
提问于2016-09-15
得票数 4
回答已采纳
1
回答
Azure Synapse SQL结果存储为
CSV
为了添加一些上下文,我有一个突触,我使用
PySpark
和SQL语句。我希望将查询结果
保存
为
csv
文件。目前,
Pyspark
保存
结果将分裂为多个部件文件。 部分-0000..。df.write.format("
csv
").option("header", "true").save("abfss://raw@.....dfs.core.windows.net/Reporting/11
浏览 6
提问于2022-03-11
得票数 0
回答已采纳
2
回答
Apache :无法将分组数据
保存
为
CSV
、
、
、
.| 3548|only showing top 20 rowsdf.write.
csv
("good_loc.
csv
")An error occurred while calling o161.
csv
. Traceback (most
浏览 1
提问于2018-05-15
得票数 1
回答已采纳
3
回答
如何将
PySpark
数据作为具有自定义文件名的
CSV
保存
?
、
、
、
、
这里是我想要
保存
为
csv
的火花DataFrame。type(MyDataFrame)要将其
保存
为
CSV
,我有以下代码:当我
保存
它时,文件名
浏览 15
提问于2021-10-19
得票数 1
回答已采纳
1
回答
星火
csv
文件大小比熊猫大2倍
、
、
、
当我用
pyspark
将数据
保存
到单个
csv
文件时,我得到的文件大小比用.toPandas()转换后的文件大2倍,然后使用to_
csv
()
保存
它。 对什么会造成这么大的差异有什么想法吗?
浏览 1
提问于2022-05-11
得票数 0
回答已采纳
2
回答
将groupBy聚合为
csv
文件后
保存
、
、
、
我正在学习吡咯烷酮,我对如何将分组数据文件
保存
为
csv
文件感到有点困惑(假设是出于某种原因-例如。RAM限制--我不想先把它转换成Pandas数据格式)。作为一个可复制的例子:import findsparkimport
pyspark
sc = SparkContext.getOrCreate() from
pyspark
.sql.fun
浏览 2
提问于2019-02-07
得票数 0
回答已采纳
2
回答
如何在
PySpark
中
保存
当前日期和时间的文件名?
、
、
、
、
我在
PySpark
中有一个数据帧,并且希望用当前时间戳作为文件名将文件
保存
为
CSV
。我正在执行这个在Azure Synapse笔记本,并希望每天运行笔记本。from datetime import datetime date = datetime.now().strftime("%Y_%m_%d-%I:%M:abfss://livetwt@strcxxxxxx.dfs.core.window
浏览 22
提问于2022-06-29
得票数 1
回答已采纳
1
回答
Pyspark
将输出
保存
为多种格式
、
、
寻找
保存
pyspark
输出到拼花和
csv
在一起。现在我有一条拼花的线路:有没有办法把它一起
保存
到多个文件中?或者我必须读取输出文件并将其
保存
为
csv
? 谢谢!
浏览 11
提问于2020-11-12
得票数 0
回答已采纳
1
回答
DF.topandas() -未能在hadoop二进制路径中找到winutils二进制文件
、
、
、
、
我正在使用PyCharm和
PySpark
运行一个巨大的文本文件。from
pyspark
import SparkContext, SparkConfconf = SparkConf()有没有其他方法可以在不影响性能的情况下将
pyspark
.sql.dataframe.DataFrame导出到.
csv
?我还尝试使用编辑的:现
浏览 2
提问于2018-06-08
得票数 1
1
回答
如何将
pyspark
ml模型
保存
/加载到HBase
、
、
、
、
但是我想不出
保存
/加载输出的方法。import SparkSession from
pyspark
.ml.linalg, e)data=spark.read.
csv
("E:/Customers.<em
浏览 1
提问于2017-08-24
得票数 0
2
回答
将数据
保存
到HDFS的格式是什么?
、
、
、
创建DataFrame后,我可以将其
保存
为avro、
csv
或拼板格式。 在dataframe或rdd中是否有其他格式可用于在Hadoop中
保存
数据?
浏览 2
提问于2017-12-21
得票数 1
1
回答
我如何安装/导入火花放电-
csv
?
、
、
我试图在
PySpark
中使用
CSV
文件中的数据。我发现了一个叫做
PySpark
的模块,它完全可以满足我的需要。根据的说法,“不需要安装”,所以我想我可以将源代码解压缩到我的Python中的一个名为'
pyspark
_
csv
‘的目录中,然后运行他们网站上列出的命令:但是,这会使我出现一个导入错
浏览 4
提问于2015-07-29
得票数 2
回答已采纳
3
回答
火花放电中
保存
中间表的最佳方法
、
、
、
、
我是在复制
Pyspark
中的SAS代码基。SAS代码库生成并存储中间SAS数据集(上次计数时为100),这些数据集用于交叉检查最终输出,并用于稍后时间的其他分析。我的目的是以某种格式
保存
大量的
Pyspark
数据格式,以便可以在单独的
Pyspark
会话中重用它们。我想出了两个选择:还有其他格式吗?哪种方法更快?parquet文件或
csv
文件是否会有模式相关的问题,同时将这些文件重新读取为
Pyspark
dataframes?
浏览 4
提问于2020-06-05
得票数 2
回答已采纳
1
回答
AWS胶水爬行动态S3路径位置
、
、
、
我正在AWS Glue中创建一个ETL作业,该作业将从S3位置获取存储库中每个实体的最新编辑或当前数据。存储库中的数据是对实体的所有编辑的历史记录。每天我运行ETL,它会写出到另一个S3位置,即Bucket/path/ to /files/current_date/...其中,当前日期是动态的,并且与ETL运行的日期一致。 我遇到的问题是,我不能从S3中以编程方式删除(组织限制),也不能移动文件,因为这是幕后的复制和删除,所以它也会失败,只留下一条路径供胶水爬行。我想设置爬虫,使路径的日期部分是动态的,但我还没有找到这样做的方法--有人知道这是否可能吗? 我的数据由run_date (参见上
浏览 13
提问于2019-04-05
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python 抓取掘金数据并保存为 CSV
PySpark数据分析基础:PySpark原理详解
pyspark 安装
PySpark调优
python爬取中国天气网天气并保存为csv格式文件
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
云直播
活动推荐
运营活动
广告
关闭
领券