NullPointerException toPandas() Pyspark？

文章/答案/技术大牛

发布

1回答

、

我正在尝试使用pyspark从teradata加载数据，并将其导入到pandas数据帧中。在运行toPandas之前，spark_df.count()返回10。任何有关阅读错误消息的帮助都将不胜感激。或者，如果我在使用pyspark时偏离了轨道，那也是很好的。pysparkimport pyspark as ps sqlContext =password=passwo

浏览 13提问于2019-04-10得票数 0

1回答

带有pyspark数据帧的NullPointerException

我有一个pyspark数据帧，.show()表示一切正常，但.toPandas()、.count()、.write.parquet(“abc/abc_pred.parket”)都会生成NullPointerException

浏览 37提问于2019-06-17得票数 0

2回答

如何修复"ImportError: Pandas >= 0.19.2必须安装；但是没有找到“？

、、、

我用的是Spark 2.3.1，我想用toPandas() (使用unique())。当我在pyspark中执行以下代码时 df.toPandas()['column_01'].unique() 我面临以下异常： >>> df.toPandas() File "<stdin>", line 1, in <module> File "/Users&#

浏览 142提问于2018-12-17得票数 3

1回答

如何在条件下更改考拉数据中的值

、、

pandas DataFrame. """--> 809 pdf = sdf.toPandas/sql/pandas/conversion.py in toPandas(self) 137 # Below is toPandas without ArrowTraceback (most recent call las

浏览 17提问于2020-11-27得票数 1

回答已采纳

1回答

我知道通过toPandas()进行转换会很困难，因为没有行数。所以我所做的是，我只对每个客户id进行了前1个预测-使用windows函数和行号函数。toPandas()应该可以在topPredictions数据帧上正常工作。但它不起作用。耗时超过40分钟&由于我在google colab工作，会话在一段时间后变为非活动状态。fullouter.join(data, ["customerId","productId"],"left_anti") allPredictions=model.tr

浏览 17提问于2020-04-12得票数 0

1回答

无法将PySpark Dataframe转换为(行数> 15M记录)

、、、

我试图使用PySpark ()函数将toPandas数据trying转换为。然而，它的失败！from pyspark.sql.functions import * importpandas as pd df_pd=df.<

浏览 0提问于2020-05-20得票数 1

1回答

如何使用类型提示优化PySpark toPandas()

我以前没有在PySpark中看到过这个警告： The conversion of DecimalType columns is inefficient and may take a long time这是传递给toPandas()的参数，还是需要以特定方式键入数据帧？我的代码是与熊猫的一个简单的pyspark对话： df = data.toPandas()

浏览 57提问于2020-10-16得票数 2

1回答

错误:何时将火花数据转换为熊猫数据

、

代码：spark_df = Example_df.toPandas()/databricks/spark/python/pyspark/sql/pandas/conversion.py:145: UserWarning: toPandas attempted Arrow optimization because 'spark.sql.execution.arrow.pyspark.enabledNote that

浏览 35提问于2022-03-02得票数 0

1回答

无法将CSV pyspark数据帧导出到C:\temp

、、、、

我有一个1300行5列的pyspark.sql.dataframe.DataFrame。-bin-hadoop2.7\python\pyspark\sql\dataframe.py in toPandas(self) 2142 # Below istoPandas without Arrow optimization().to_csv("C:/temp/colspark.csv") S:\tdv\ab\ecp\Spark\spark-2.4.

浏览 28提问于2019-10-03得票数 1

回答已采纳

1回答

将顺序和确定的索引添加到数据中

、

我需要向dataframe添加一个索引列，其中包含三个非常简单的约束：，，，，

浏览 0提问于2018-09-13得票数 6

回答已采纳

1回答

PySpark --将行列表转换为数据帧

、、、

实际上，我要解决的问题是，获取PySpark数据的第一/最后N行，结果是数据。具体来说，我想做这样的事情：但是，因为head()返回一个行列表，所以我得到了以下错误：所以，我要么寻找将PySpark数据rows的前N行作为数据返回的方法，要么寻找将这些行列表转换为数据rows的方法。

浏览 1提问于2016-05-01得票数 7

回答已采纳

1回答

如何计算或管理火花放电中的流数据

、、、、

，但它在summary = dataStream.select('TotalSales').groupby().sum().toPandas()上出错，这是我的代码。import osfrom pyspark.sql.types import StructType from pyspark.sql.functionsdataStream.writeStream.format("console").start(

浏览 0提问于2020-06-02得票数 0

回答已采纳

3回答

在Juypyter Notebook中将PySpark数据帧显示为HTML表

、、、

我试图在Jupyter Notebook中将PySpark数据帧显示为HTML表，但似乎所有方法都失败了。使用此方法显示文本格式的表格：df.toPandas()df.toPandas().to_html()print(df.toPandas().to_html())from IPython.display import display, HTML HTML(df.to

浏览 0提问于2019-02-15得票数 6

2回答

pyspark寄存器内置函数及其在spark.sql查询中的使用

、、

在spark.sql查询中注册和使用pyspark version 3.1.2内置函数的正确方式是什么？下面是一个创建pyspark DataFrame对象并在纯SQL中运行简单查询的最小示例。For column literals, use 'lit', 'array', 'struct' or 'create_map' function...的pyspark内置函数运行相同查询的代码出现错误import pandas as pd import py

浏览 4提问于2021-08-19得票数 0

回答已采纳

1回答

使用Apache将PySpark* DataFrame转换为Pandas*

、、、

我想把PySpark dataframe (pyspark.sql.DataFrame)转换成Pandas数据格式。有一个内置的方法toPandas()，这是非常低效的(请阅读韦斯麦金尼关于这个问题的文章回到芬鲁里2017年和他在中的计算)。与此同时，已经作出了一些努力，使这种转变更快。例如，Josh的函数。幸运的是，正如2017年7月26日的所示，多亏了作者、和，由于Apache Arrow在Spark 2.3中的实现，toPandas()的功能得到了显著改善。更新1：有人建议我先将pyspark打印

浏览 2提问于2017-09-07得票数 3

1回答

箭头:转换为RuntimeError: VectorUDT时不支持的类型

、、、、

我尝试使用以下代码将spark数据帧转换为Pandas数据帧：result.toPandasTraceback (most recent call last) /usr/local/lib/python3.6/dist-packages/pyspark/sql/dataframe.py in toPandas</

浏览 3提问于2018-07-04得票数 7

2回答

如何在PySpark* SQL ()子句中使用聚合值？*

、、、

我正在努力学习PySpark，并且已经尝试学习如何使用SQL ()子句来更好地对数据进行分类。(请参阅此处：)我似乎无法解决的是如何显式地将实际的标量值插入时间()条件中，以便进行比较。

浏览 3提问于2021-10-15得票数 0

回答已采纳

1回答

无法在PySpark* (版本2.4.4)和PythonVersion3.6.8中的dataframe列上使用导入的包*

、、、、

在我的AWS集群中，我下载了一个Python包：现在，我想在我的名为“'city_no_accents‘city”的pyspark因此，我编写了下面的PySpark代码：from unidecode import unidecode city_df_without_accents.s

浏览 5提问于2020-10-15得票数 0

1回答

如何在jupyter笔记本中使用apachee-toree内核的pyspark以良好的格式显示数据帧

、、、、

我在使用apache-toree内核的pyspark中的jupyter笔记本上运行我的代码。目前，当我展示我的数据帧时，它看起来有点像这个链接-> 中的图像。我知道有一种方法可以使用apache 上提到的“魔法”，但它在pyspark中也不起作用。如果我在jupyter中加载一个普通的python笔记本，它就能工作。它给出了用pyspark显示在中的错误我在网上找不到任何关于这方面的东西。任何帮助都是非常感谢的。

浏览 2提问于2018-06-28得票数 1

1回答

是否有可能将.agg(字典)与.alias()重命名为结果列？

、

我有一个'pyspark_df‘，我想对数据进行分组，并将数据聚合成一个通用函数字符串名，如下所示:'avg’、'count‘、'max’、'mean‘、'min’或'sum‘。'Balance'name_to_be_Changed = aggType + '(' + aggSeriesName + ')' group_sorted = pyspark_df.groupbyd

浏览 3提问于2019-11-13得票数 0

回答已采纳

点击加载更多