如何在PySpark中以可接受的方式执行此操作?我知道如何在Pandas中做到这一点,但我想知道在PySpark中是如何高效完成的,或者是否可以高效完成。我的第一个想法是使用来自pyspark.sql.functions的最好的,如下所示cols = df_tmp.columns[:-1]
for j in cols:我也不知道如何在不重写单元格(Charlie,Foxtrot)中的值的情况下<em
假设我有两个PySpark DataFrames df1和df2。2 3我希望为每个df2['b']找到最接近的df1['a']值,并将最近的值作为df1中的一个新列添加换句话说,对于df1['a']中的每个值df1['a'],我希望找到一个实现min(abx(x-y)) for all y in df2['b']的y (注意