我有一个很大的PySpark DataFrame,我想在下面的例子中操作它。我认为想象它比描述它更容易。series列中包含的三个唯一值(即ID1、ID2和ID3)中的每一个都有相应的值(在values列下)同时出现(即timestamp列中的相同条目)。在这个DataFrame中,我希望有一个转换,最终得到下面的DataFrame,命名为results。t3 | val
使用from pyspark.sql.types import StringType
File "C:\spark\spark-3.1.2-bin-hadoop3.2\python\lib\pyspark.zip\pyspark\worker.py", line 584, in main
File "
需要减少以下python代码的计算量,该代码包含多个if else语句。代码运行在一个DataBricks上,所以我也对开放。目前,该代码运行时间超过1小时。因此,任何帮助都将不胜感激。unique_list_code:concat_df['C_Code']列中用于过滤包含代码的数据行的唯一代码列表。else: Not
它可以在没有聚合或计数的情况下遍历PysparkgroupBy数据帧吗?例如Pandas中的代码: for i, d in df2:Is there a difference in howto iterate groupby in Pyspark or have to use aggregation and count?