) 多个dataframe - pandas# pandas拼接多个dataframedfs = [df, df1, df2,......,dfn]df = pd.concat(dfs, ignore_index = True) 多个dataframe - PySparkPySpark 中 unionAll 方法只能用来连接两个 dataframe...import DataFramedef unionAll(*dfs): return reduce(DataFrame.unionAll, dfs)dfs = [df, df1, df2,......,dfn]df = unionAll(*dfs) 简单统计Pandas 和 PySpark 都提供了为 dataframe 中的每一列进行统计计算的方法,可以轻松对下列统计值进行统计计算:列元素的计数列元素的平均值最大值最小值标准差三个分位数...:25%、50% 和 75%Pandas 和 PySpark 计算这些统计值的方法很类似,如下: Pandas & PySparkdf.summary()#或者df.describe() 数据分组聚合统计