它可以在没有聚合或计数的情况下遍历PysparkgroupBy数据帧吗?例如Pandas中的代码: for i, d in df2:Is there a difference in howto iterate groupby in Pyspark or have to use aggregation and count?
pyspark是否支持窗口函数(例如first, last, lag, lead)?
例如,如何按一列分组并按另一列排序,然后按SparkSQL或数据框选择每个组的第一行(这就像窗口函数一样)?我发现pyspark.sql.functions类包含聚合函数first和last,但它们不能用于groupBy类。