首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如何在PySpark中找到DataFrame的大小或形状?

如何在PySpark中找到DataFrame的大小或形状?
EN

Stack Overflow用户
提问于 2016-09-23 12:42:25
回答 6查看 240.2K关注 0票数 118

我正在尝试在PySpark中找出DataFrame的大小/形状。我看不到有一个函数可以做到这一点。

在Python中,我可以这样做:

代码语言:javascript
运行
复制
data.shape()

PySpark中有没有类似的函数?这是我目前的解决方案,但我正在寻找一个元素一

代码语言:javascript
运行
复制
row_number = data.count()
column_number = len(data.dtypes)

列数的计算并不理想……

EN

回答 6

Stack Overflow用户

发布于 2017-08-12 01:28:55

您可以通过以下方式获取其shape

代码语言:javascript
运行
复制
print((df.count(), len(df.columns)))
票数 191
EN

Stack Overflow用户

发布于 2017-08-18 21:33:34

使用df.count()获取行数。

票数 71
EN

Stack Overflow用户

发布于 2018-12-20 03:20:17

将此代码添加到您的代码中:

代码语言:javascript
运行
复制
import pyspark
def spark_shape(self):
    return (self.count(), len(self.columns))
pyspark.sql.dataframe.DataFrame.shape = spark_shape

然后你可以这样做

代码语言:javascript
运行
复制
>>> df.shape()
(10000, 10)

但只需提醒您,对于尚未持久化的非常大的表,.count()可能会非常慢。

票数 38
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/39652767

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档