、创建dataframe
3、 选择和切片筛选
4、增加删除列
5、排序
6、处理缺失值
7、分组统计
8、join操作
9、空值判断
10、离群点
11、去重
12、 生成新列
13、行的最大最小值...、创建dataframe
# 从pandas dataframe创建spark dataframe
colors = ['white','green','yellow','red','brown','pink...pandas,重复列会用_x,_y等后缀标识出来,但spark不会
# join会在最后的dataframe中存在重复列
final_data = employees.join(salary, employees.emp_id...on='emp_id', how='left')\
.join(department, on='emp_id', how='left')
final_data.show()
在join操作中,我们得到一个有缺失值的...(4,4000)]
df=spark.createDataFrame(df, schema=["emp_id","salary"])
df.show()
# 求行的最大最小值
from pyspark.sql.functions