可以通过如下代码来检查数据类型:df.dtypes# 查看数据类型 df.printSchema() 读写文件Pandas 和 PySpark 中的读写文件方式非常相似。...或者df.limit(2).head()注意:使用 spark 时,数据可能分布在不同的计算节点上,因此“第一行”可能会随着运行而变化。...Pandas在 Pandas 中,有几种添加列的方法:seniority = [3, 5, 2, 4, 10]# 方法1df['seniority'] = seniority# 方法2df.insert...(2, "seniority", seniority, True) PySpark在 PySpark 中有一个特定的方法withColumn可用于添加列:seniority = [3, 5, 2, 4,...在 Pandas 中,要分组的列会自动成为索引,如下所示:图片要将其作为列恢复,我们需要应用 reset_index方法:df.groupby('department').agg({'employee'