我正在尝试在PySpark中找出DataFrame的大小/形状。我看不到有一个函数可以做到这一点。
在Python中,我可以这样做:
data.shape()
PySpark中有没有类似的函数?这是我目前的解决方案,但我正在寻找一个元素一
row_number = data.count()
column_number = len(data.dtypes)
列数的计算并不理想……
发布于 2017-08-12 01:28:55
您可以通过以下方式获取其shape
:
print((df.count(), len(df.columns)))
发布于 2017-08-18 21:33:34
使用df.count()
获取行数。
发布于 2018-12-20 03:20:17
将此代码添加到您的代码中:
import pyspark
def spark_shape(self):
return (self.count(), len(self.columns))
pyspark.sql.dataframe.DataFrame.shape = spark_shape
然后你可以这样做
>>> df.shape()
(10000, 10)
但只需提醒您,对于尚未持久化的非常大的表,.count()
可能会非常慢。
https://stackoverflow.com/questions/39652767
复制相似问题