描述PySpark上的数据帧

PySpark是一种基于Python的Spark编程接口，它提供了一种高级抽象的数据结构，称为数据帧（DataFrame），用于处理大规模数据集。数据帧类似于关系型数据库中的表格，具有行和列的结构。

数据帧在PySpark中的主要特点包括：

分布式处理：PySpark使用分布式计算框架Spark，可以在集群上并行处理大规模数据集。数据帧可以被分割成多个分区，每个分区可以在不同的计算节点上进行处理。
强大的数据处理能力：PySpark的数据帧提供了丰富的数据处理操作，包括过滤、排序、聚合、连接等。可以使用类似SQL的语法进行数据查询和转换操作。
可扩展性：PySpark可以处理大规模的数据集，适用于需要处理海量数据的场景。它可以利用集群中的多个计算节点并行处理数据，提高处理效率。
支持多种数据格式：PySpark的数据帧可以读取和写入多种数据格式，包括CSV、JSON、Parquet等。这使得数据的导入和导出变得非常方便。
整合机器学习和图计算：PySpark提供了机器学习库（MLlib）和图计算库（GraphX），可以在数据帧上进行机器学习和图计算任务。
生态系统丰富：PySpark作为Spark的Python接口，可以与Spark生态系统中的其他组件无缝集成，如Spark Streaming、Spark SQL等。

PySpark的数据帧适用于以下场景：

大数据处理：当数据量非常大，无法在单台机器上进行处理时，可以使用PySpark的数据帧进行分布式处理。
数据清洗和转换：数据帧提供了丰富的数据处理操作，可以用于数据清洗、转换和整合等任务。
数据分析和挖掘：通过PySpark的数据帧，可以进行数据分析、统计和挖掘等任务，发现数据中的模式和规律。
机器学习和深度学习：PySpark的数据帧可以与MLlib和TensorFlow等机器学习和深度学习库结合使用，进行大规模的机器学习和深度学习任务。

腾讯云提供了一系列与PySpark相关的产品和服务，包括云服务器、弹性MapReduce、云数据库等。您可以通过以下链接了解更多信息：

腾讯云服务器：https://cloud.tencent.com/product/cvm
腾讯云弹性MapReduce：https://cloud.tencent.com/product/emr
腾讯云云数据库：https://cloud.tencent.com/product/cdb

请注意，以上答案仅供参考，具体的产品选择和推荐应根据实际需求和情况进行评估。

页面内容是否对你有帮助？

有帮助

没帮助

将PySpark数据帧转换为PySpark.pandas数据帧

、、

在链接中，用户可以在Spark3.2中的PySpark之上与熊猫合作。是否需要很长时间才能将PySpark数据帧转换为PySpark熊猫数据框架？我知道将PySpark数据帧转换为熊猫数据框架需要很长时间。

浏览 9提问于2022-03-02得票数 1

回答已采纳

1回答

如何在python中对tweets id的数据帧进行消重

、、、、

我在pyspark中有一个名为tweets的数据帧，其中有列"tweet_id“，我想使用它们的id获取完整的tweet，并将它们放入一个新的数据帧中(我可以使用tweepy、twarc twython来实现吗？)。

浏览 3提问于2020-08-09得票数 0

4回答

Pyspark:有没有等同于pandas info()的方法？

、、、

在PySpark中是否有与pandas info()方法等效的方法？我正在尝试获取有关PySpark中数据帧的基本统计信息，例如:列数和行数、空值数、数据帧大小 pandas中的Info()方法提供了所有这些统计信息。

浏览 4提问于2017-06-08得票数 6

1回答

我已经用python写了一些带有sql上下文的代码，即pyspark，通过将csv转换为pyspark dataframe来对csv执行一些操作(df操作，如预处理、重命名列名、创建新列并将其附加到相同的dataframe中等)。我希望为它编写单元测试用例。我没有在数据帧上编写单元测试用例的想法。有谁能帮我在pyspark的dataframe上写单元测试用例吗？或者给我一些数据帧上的测试用例的来源？

浏览 1提问于2016-04-14得票数 3

2回答

如何反转pyspark dataframe

、

我需要反转我的pyspark数据帧。有没有一种高效的方式在pyspark中做到这一点？？我的datetime列是反转的，所以我需要反转我的dataframe +-------------------+-------+ | date|value_1| +-------------------+-------+ |2018-11-30 23:59:24| 28.02| |2018-11-30 23:58:54| 28.02| |2018-11-30 23:58:24| 28.03| +-------------------+-------+ 有没有办法在pysp

浏览 33提问于2019-10-18得票数 0

回答已采纳

1回答

Cassandra过滤pyspark数据帧的时间戳格式正确

、、、、

我在Cassandra中将时间戳存储为YYYY-mm-dd HH:MM:SSZ，并且我能够在cql shell中过滤数据以获得特定的时间范围，但是当我在pyspark数据帧上尝试同样的操作时，我在过滤后的数据帧中没有得到任何值。有谁能帮我在pyspark中找到合适的datetime格式吗？谢谢。

浏览 6提问于2020-03-05得票数 1

2回答

PySpark列向绑定

在PySpark中有什么特定的方法可以像我们在r中那样绑定两个数据帧吗？示例：数据帧1有10列。数据帧2有1列我需要在PySpark中同时绑定数据帧和作为一个数据帧。

浏览 1提问于2017-08-30得票数 3

1回答

如何从pyspark中删除数据帧来管理内存？

、、、

我列出我的数据帧以丢弃未使用的数据帧。首先，我使用下面的函数列出了我在其中一篇文章中找到的数据帧 from pyspark.sql import DataFrame def list_dataframes(): return [k for (k, v) in globals().items() if isinstance(v, DataFrame)] 然后我试着从列表中删除未使用的。我在下面使用的代码 df2.unpersist() 当我再次列出时，df2仍然在那里。如何在pyspark上删除数据帧以获得一些内存？或者你还有其他的建议吗？谢谢。

浏览 0提问于2018-10-31得票数 4

回答已采纳

1回答

Spark SQL更新/删除

、、、、

目前，我正在做一个使用pySpark的项目，它读取一些Hive表，将它们存储为数据帧，并且我必须对它们执行一些更新/过滤。我正在不惜一切代价避免使用Spark语法来创建一个框架，该框架只接受参数文件中的SQL，该参数文件将使用我的pySpark框架运行。现在的问题是，我必须在我的最终数据帧上执行更新/删除查询，是否有任何可能的工作来在我的数据帧上执行这些操作？非常感谢!

浏览 7提问于2019-11-15得票数 1

2回答

优化PySpark与pandas DataFrames之间的转换

、、、、

我有一个13M行的pyspark数据帧，我想把它转换成pandas数据帧。然后，将根据其他参数以不同的频率(例如1秒、1分钟、10分钟)对数据帧进行重新采样以进行进一步分析。从文献[，]中，我发现使用以下任何一行都可以加快pyspark到pandas数据帧之间的转换： spark.conf.set("spark.sql.execution.arrow.pyspark.enabled", "true") spark.conf.set("spark.sql.execution.arrow.enabled", "true") 但是，

浏览 11提问于2021-11-19得票数 0

1回答

Pyspark管道在pandas数据帧上的应用

、、、

我有一个pyspark管道(包含估算和一个机器学习模型)和一个pandas数据帧。我是否可以在不将其转换为Pyspark dataframe的情况下将管道应用于此pandas数据帧？如果不可能，我如何有效地使用pyspark管道来生成对pandas数据帧的预测？

浏览 3提问于2021-09-13得票数 1

1回答

在不使用pandas的情况下将数据帧转换为pyspark中的字典

、、、、

在this问题和数据帧之后，我正在尝试将数据帧转换为字典。在pandas中，我使用的是： dictionary = df_2.unstack().to_dict(orient='index') 但是，我需要将此代码转换为pyspark。有人能帮我吗？正如我从前面的问题中了解到的，比如this，我确实需要使用pandas，但是数据帧太大了，我无法做到这一点。我该如何解决这个问题呢？编辑：我现在尝试了以下方法： dictionary_list = map(lambda row: row.asDict(), df_2.collect()) dictionary = {age[

浏览 20提问于2021-01-14得票数 0

回答已采纳

1回答

将列有条件地添加到数据帧中

、、、、

我在PySpark中有一个数据帧。我想有条件地在数据框架中添加一列。如果数据帧没有列，那么添加一个带有null值的列。如果列存在，则不执行任何操作，并返回与新数据帧相同的数据帧。如何在PySpark中传递条件语句

浏览 6提问于2017-01-20得票数 0

回答已采纳

1回答

如何将pyspark数据帧拆分成多个记录数相等的数据帧

我有一个pyspark数据帧，我想把它分成多个相等记录的数据帧。我在AWS EMR上执行此任务，不支持pandas或numpy。

浏览 22提问于2019-12-22得票数 0

2回答

使用pyspark进行加权采样

、、、

我在使用PySpark的spark上有一个不平衡的数据帧。我想对其进行重新采样，使其达到平衡。我只在PySpark中找到了示例函数 sample(withReplacement, fraction, seed=None) 但是我想在Python中用单位体积的权重来采样数据帧，我可以这样做 df.sample(n,Flase,weights=log(unitvolume)) 有没有什么方法可以用PySpark做同样的事情呢？

浏览 2提问于2018-02-01得票数 5

2回答

Pyspark:通过ID和最近日期向后加入2个数据帧

、、、

在pyspark (和一般的python )中执行两个数据帧的滚动连接时，我遇到了很多问题。我希望将两个pyspark数据帧通过它们的ID和最近日期反向连接在一起(这意味着第二个数据帧中的日期不能晚于第一个数据帧中的日期) Table_1： Table_2：期望的结果：从本质上讲，我知道SQL查询可以做spark.sql(“查询”)等任何事情。我尝试了几种在spark环境下不起作用的方法。谢谢!

浏览 1提问于2020-08-08得票数 2

1回答

如何在pyspark dataframe中找到不带group by的累积频率

、、

我在pyspark dataframe中有一个count列，如下所示： id Count Percent a 3 50 b 3 50 我想要一个结果数据帧为： id Count Percent CCount CPercent a 3 50 3 50 b 3 50 6 100 我不能使用熊猫数据帧，因为数据库太大了。我找到了指向窗口分区的答案，但我没有这样的列作为分区依据。请大家用pyspark dataframe告诉我怎么做。注意: pysp

浏览 5提问于2017-03-20得票数 0

2回答

从PySpark数据帧获取第一个元素

、、、

我有一个PySpark数据框架，它只包含一个元素。如何从数据帧中提取数字？例如，如何从PySpark数据帧中获得数字5.0？ +-----------------+ | count | +-----------------+ | 5.0 | +-----------------+

浏览 0提问于2022-07-13得票数 1

回答已采纳

1回答

使用pyspark从S3读取csv作为spark数据帧(Spark2.4)

、、、、

我想从s3 (s3://test-bucket/testkey.csv)读取一个csv文件，作为使用pyspark的spark数据帧。我的集群运行在spark 2.4上。我不需要带任何infer_schema，凭据a.o.t.考虑到。并且csv文件不会作为粘合表被爬行。你可以粘贴你的pyspark代码，这是基于spark会话，并转换为csv到spark数据帧在这里？在此先致谢并致以最良好的问候

浏览 16提问于2019-10-07得票数 3

1回答

用map并行化for循环，用pyspark并行化reduce

、、

在我的应用程序中，我从S3上不同位置的数据创建不同的数据帧，然后尝试将这些数据帧合并为单个数据帧。现在，我正在使用一个for循环。但我有一种感觉，使用pyspark中的map和reduce函数可以更有效地完成这项工作。下面是我的代码： from pyspark import SparkConf, SparkContext from pyspark.sql import SQLContext, GroupedData import pandas as pd from datetime import datetime sparkConf = SparkConf().setAppName(

浏览 0提问于2016-08-24得票数 3

3回答

`df.loc`的火花源等价？

、、、、

我正在寻找等同于pandas数据帧的pyspark。特别是，我想对pyspark dataframe执行以下操作 # in pandas dataframe, I can do the following operation # assuming df = pandas dataframe index = df['column_A'] > 0.0 amount = sum(df.loc[index, 'column_B'] * df.loc[index, 'column_C']) / sum(df.loc[index, &

浏览 0提问于2018-05-13得票数 8

回答已采纳

1回答

从数据帧列表生成单个DataFrame

、、、、

我有一个数据帧列表，在列表的每个位置上，我有一个数据帧，我需要将所有这些数据帧合并到一个数据帧中。在我使用之前，这是在PySpark中完成的 dataframe_new =pd.concat(listName) 解决方案1 from pyspark.sql.types import * import pyspark.sql from pyspark.sql import SparkSession, Row customSchema = StructType([ StructField("col1", StringType(), True), Str

浏览 12提问于2021-01-28得票数 0

1回答

pyspark将数组类型的列拆分成多列

、

在对数据集运行pyspark中的ALS算法后，我遇到了一个最终的数据帧，如下所示 ? 推荐的列是数组类型，现在我想拆分这一列，我的最终数据帧应该如下所示 ? 谁能建议我，哪个pyspark函数可以用来形成这个数据帧？数据帧的模式 root |-- person: string (nullable = false) |-- recommendation: array (nullable = true) | |-- element: struct (containsNull = true) | | |-- ID: string (nullable =

浏览 61提问于2021-07-11得票数 0

回答已采纳

1回答

Pandas dataframe to Spark dataframe“无法合并类型错误”

、、、、

我有csv数据，并使用read_csv创建了Pandas dataframe，并强制所有列为字符串。然后，当我尝试从Pandas数据帧创建Spark数据帧时，我得到了下面的错误消息。 from pyspark import SparkContext from pyspark.sql import SQLContext from pyspark.sql.types import * z=pd.read_csv("mydata.csv", dtype=str) z.info() <class 'pandas.core.frame.DataFrame'>

浏览 6提问于2016-08-06得票数 33

回答已采纳

1回答

将pandas数据帧转换为PySpark数据帧

、、、、

我有一个脚本与下面的设置。我正在使用： 1)用于拉取数据的Spark数据帧2)在初始聚合后转换为pandas数据帧3)想要转换回Spark以写入HDFS 从spark --> Pandas的转换很简单，但我正在为如何将Pandas数据帧转换回Spark而苦苦挣扎。你能给点建议吗？ from pyspark.sql import SparkSession import pyspark.sql.functions as sqlfunc from pyspark.sql.types import * import argparse, sys from pyspark.sql import

浏览 1提问于2018-10-23得票数 15

回答已采纳

2回答

如何从不同列的PySpark数据框中提取数组元素？

、

我有以下PySpark输入数据帧： +-------+------------+ | index | valuelist | +-------+------------+ | 1.0 | [10,20,30] | | 2.0 | [11,21,31] | | 0.0 | [14,12,15] | +-------+------------+ 其中：矢量索引:类型DoubleValuelist:类型。(不是Array)，而是从上面的输入数据帧中，我希望在PySpark中获得以下输出数据帧 +-------+-------+ | index | value | +-------+

浏览 105提问于2018-08-04得票数 2

1回答

为什么RDD to JSON会删除数据的实际排序？

、、、

我正在尝试从我的pyspark数据帧创建一个JSON。我在我的数据帧中看到数据是正确排序的，但是当使用toJSON时，排序不会反映在JSON对象中。你能帮帮我吗？我的Dataframe是这样的： ? 这就是我使用toJSON时会发生的事情 ?

浏览 8提问于2019-02-13得票数 0

回答已采纳

2回答

Pyspark: ValueError

我有一个PySpark RDDs的字典，正在尝试将它们转换为数据帧，将它们保存为变量，然后连接它们。当我尝试将其中一个RDDs转换为数据帧时，出现以下错误： File "./spark-1.3.1/python/pyspark/sql/types.py", line 986, in _verify_type "length of fields (%d)" % (len(obj), len(dataType.fields))) ValueError: Length of object (52) does not match with length of

浏览 1提问于2015-07-08得票数 0

1回答

如何在pyspark dataframe中不聚合地分组

、、、、

我有一个非常庞大的数据集，我需要使用pyspark dataframe。请参考数据的简化版本： product_type series_no product_amount date 514 111 20 2020/01/01 (YYYY/MM/DD) 514 111 30 2020/01/02 514 111 40 2020/01/03 514

浏览 30提问于2021-01-23得票数 0

回答已采纳

1回答

在databricks中使用Pyspark(Python)的连接不起作用

、、

使用Pyspark的内部联接不适用于使用分区csv、常规csv和SQL表创建的数据帧。例如:当我尝试在使用分区csv (存储在ADLS中)和普通csv创建的数据帧上应用内部联接时，输出df是用空值创建的，但当我在常规csv上创建的数据帧上联接时，它工作得很好。在databricks中对此有什么限制吗？

浏览 24提问于2019-12-19得票数 0

1回答

将变量加载到数据帧中

、、、

在PySpark中，我尝试从字符串变量加载数据帧。我的变量是一个多行文本.. string_data = """ Name|age|city david|23|London krish|24|Bali john|56|Goa """ 我想将这些数据加载到PySpark中的数据帧中。我想使用数据集，但它们在PySpark中不可用。使用Pandas时，我常常这样写： string2 = StringIO(string_data) df = pd.read_csv(string2,sep='|')

浏览 7提问于2021-02-02得票数 0

1回答

PySpark滑动窗口计算

、、

我有一个PySpark数据帧，我想在其上运行滑动窗口计算。下面是我想要运行的操作的示例代码(显示为pandas dataframe)： df["Total"].shift(1).rolling(7, min_periods = 7).avg() 有人能告诉我如何在PySpark中复制这个操作吗？

浏览 0提问于2018-03-18得票数 0

0回答

在UDF中引用另一个数据帧时，如何引用该数据帧？

、、、、

当在另一个数据帧上执行UDF时，如何引用一个pyspark数据帧？这里有一个虚拟的例子。我正在创建两个数据帧scores和lastnames，每个数据帧中都有一个列，该列在两个数据帧中是相同的。在scores上应用的UDF中，我希望过滤lastnames并返回在lastname中找到的字符串。 from pyspark import SparkContext from pyspark import SparkConf from pyspark.sql import SQLContext from pyspark.sql.types import * sc = SparkContext(&#

浏览 6提问于2016-12-30得票数 6

回答已采纳

2回答

为什么groupBy()比pyspark中的distinct()快得多？

当我用groupBy()替换spark数据帧上的distinct()时，我在我的pyspark代码中看到了很大的性能改进。但是我不能理解背后的原因。整个意图是从数据帧中删除行级重复项。我尝试在谷歌上搜索groupBy()和distinct()在pyspark中的实现，但没有找到。有没有人能给我解释一下或者给我指出正确的方向？

浏览 0提问于2018-09-11得票数 6

1回答

在spark数据帧上实现pythonic统计函数

、、、

我在spark数据帧中有非常大的数据集，它们分布在节点上。我可以使用spark库pyspark.sql.functions进行简单的统计，如mean、stdev、skewness、kurtosis等。如果我想使用像Jarque-Bera (JB)或Shapiro Wilk(SW)等高级统计测试，我会使用像scipy这样的python库，因为标准的apache pyspark库没有它们。但为了做到这一点，我必须将spark数据帧转换为pandas，这意味着将数据强制到主节点中，如下所示： import scipy.stats as stats pandas_df=spark_df.toPan

浏览 30提问于2020-09-13得票数 0

2回答

如何检查来自不同数据帧的列值？

、、、

我有两个pyspark数据帧，我想检查第一个数据帧列值是否存在于第二列dataframe.If第一个数据帧列值不存在于第二个数据帧列中，我需要确定这些值并将其写入list.Is有没有更好的方法来使用pyspark来处理这种情况？感谢您的回复。 df[Name].show() Java Oracle .NET df1[Name].show() Oracle Scala .NET python

浏览 37提问于2020-09-03得票数 0

回答已采纳

1回答

将多个PySpark DataFrames与MergeSchema合并

、、

我想将多个PySpark数据帧合并到一个PySpark数据帧中。它们都来自相同的模式，但是它们可能会有所不同，因为有时会缺少一些列(例如，模式通常包含200个具有已定义数据类型的列，其中dataFrame A有120列，dataFrame B有60列)。是否有可能在不写入和读取所有数据帧的情况下再次使用mergeSchema合并模式？谢谢。

浏览 2提问于2020-06-22得票数 0

1回答

pyspark dataframe是否在第一次加载时缓存

、

我有一个通过spark sql查询从hive datastore加载的pyspark dataframe。我知道只有当我在数据帧上调用show()这样的操作时，查询才会执行。如果我在数据帧上多次调用一个操作，查询是否会被重新执行，或者是否可以缓存它？

浏览 26提问于2018-01-04得票数 0

回答已采纳

2回答

用于获取精度、召回、f1score的混淆矩阵

、、、

我有一个数据帧df。我已经对数据帧执行了decisionTree分类算法。这两列是执行算法时的标签和特征。该模型被称为dtc。如何在pyspark中创建混淆矩阵？ dtc = DecisionTreeClassifier(featuresCol = 'features', labelCol = 'label') dtcModel = dtc.fit(train) predictions = dtcModel.transform(test) from pyspark.mllib.linalg import Vectors from pyspark.mllib.re

浏览 0提问于2019-10-16得票数 4

1回答

计算带有点‘’的数据帧列的approxQuantile。

我无法计算列名称中包含点的pyspark数据帧的approxQuantile。例如，数据帧模式是 root |-- col.dot: double (nullable = true) 那我就不能 df.approxQuantile(('`col.dot`'), [0.5], 0.25) 导致错误: pyspark.sql.utils.IllegalArgumentException：‘字段"col.dot“不存在。\n可用字段: col.dot’ 我也试过 df.approxQuantile(('col.dot'), [0.5], 0.25) 这会

浏览 7提问于2019-06-12得票数 1

1回答

如何从pyspark dataframe中更快地保存csv文件？

、、、

我目前在本地的windows10系统上使用pyspark。pyspark代码运行得相当快，但将pyspark数据帧保存为csv格式需要花费大量时间。我正在将pyspark数据帧转换为pandas，然后将其保存到csv文件中。我还尝试使用write方法来保存csv文件。 Full_data.toPandas().to_csv("Level 1 - {} Hourly Avg Data.csv".format(yr), index=False) Full_data.repartition(1).write.format('com.databricks.spark.

浏览 126提问于2019-08-01得票数 5

1回答

将pandas数据帧转换为spark数据帧时收到错误

、、

由于在spark中没有对读取excel文件的开箱即用的支持，所以我首先将excel文件读取到pandas数据帧中，然后尝试将pandas数据帧转换为spark数据帧，但我得到了以下错误(我使用spark 1.5.1) import pandas as pd from pandas import ExcelFile from pyspark import SparkContext from pyspark.sql import SQLContext from pyspark.sql.types import * pdf=pd.read_excel('/home/testdata/tes

浏览 0提问于2016-01-15得票数 2

1回答

在pyspark中逐行连接字符串

、、

浏览 13提问于2017-01-22得票数 18

回答已采纳

7回答

Pyspark:以表格格式显示星火数据框架

、、、

我正在使用pyspark读取一个如下所示的拼花文件： my_df = sqlContext.read.parquet('hdfs://myPath/myDB.db/myTable/**') 然后，当我做my_df.take(5)时，它将显示[Row(...)]，而不是像我们使用熊猫数据帧时那样的表格格式。是否可以像熊猫数据帧那样以表格格式显示数据帧？谢谢!

浏览 15提问于2016-08-21得票数 78

回答已采纳

1回答

select distinct().count()是一个pyspark数据帧吗？

我看到了 df.select(“name”).distinct().count() <br/> 这是pyspark数据帧吗？或者熊猫数据帧？

浏览 2提问于2019-09-20得票数 0

0回答

减去Pandas或Pyspark Dataframe中的连续列

、、、、

我想在pandas或pyspark数据帧中执行以下操作，但我仍然没有找到解决方案。我想从数据帧中的连续列中减去这些值。我描述的操作可以在下图中看到。请记住，输出数据帧在第一列上不会有任何值，因为输入表中的第一列不能被前一列减去，因为它不存在。

浏览 1提问于2016-07-12得票数 4

回答已采纳

1回答

从Pandas到PySpark的.apply相等

、、

浏览 25提问于2020-08-07得票数 0

1回答

如何在不将列列表临时存储到变量中的情况下重命名df列？

、、、

我正在提取Snowflake表并将其加载到PySpark DataFrame中，并且我想重命名它的列。现在，正在将加载的数据帧存储到一个变量中，然后访问列列表： calculated_signal_df = ( spark.read.format("snowflake") .options(**sfOptions) .option("query", "select * from iot.calculated_signal") .load() ) calculated_signal_df = calculated_s

浏览 1提问于2021-04-21得票数 0

2回答

从PySpark连接到Sharepoint的代码

、、、、

我想使用PySpark提取SharePoint列表数据。我不确定Sharepoint列表数据和存储。我想以PySpark数据帧的形式读取SharePoint列表数据。我尝试过Python Libraies: Sharepy Slum和许多其他库

浏览 2提问于2019-05-24得票数 2

1回答

无法将pyspark中的dataframe复制到Databricks中的csv文件

、

我在Databricks的Pyspark环境中工作，有一个pyspark数据框架，我将其称为df。我需要将这个spark数据帧推送到csv文件中，我无法这样做。虽然没有弹出错误，但数据帧没有复制到csv中。下面是通用代码 path = “ “ #CSV File Location header = “This is the header of the file" With open(path,”a”) as f: f.write(header+”\n”) df.write.csv(path=path,format=“csv”,mode=“append”)

浏览 17提问于2020-06-21得票数 0