、创建dataframe
# 从pandas dataframe创建spark dataframe
colors = ['white','green','yellow','red','brown','pink...(color_df['length']>=4).show() # filter方法
# 2.选择几列的方法
color_df.select('length','color').show()
# 如果是...spark_df.show()
# 2.删除有缺失值的行
df2 = spark_df.dropna()
df2.show()
# 3.或者
spark_df=spark_df.na.drop()
另外,如果...的 where 或者 combine_first 方法
# pandas
#where即if-else函数
np.where(isnull(a),b,a)
# combine_first方法
#如果...schema=["FirstName","LastName","Dob"])
df1.show()
# 删除重复值行
df1.dropDuplicates().show()
# 只要某一列有重复值,则去重