我有以下数据帧: from pyspark.sql import functions as f
df = spark.createDataFrame,其中的值的总和是按group column分组的。但我没有可读的输出。"numb"].cast("double"))).over(Window.partitionBy(df["group_co
我对pyspark是个新手。我有一个包含ID和BALANCE列的pyspark数据框。我尝试将列balance存储到100% (1-100%)的存储桶中,并计算每个存储桶中有多少个in。我不能使用任何与RDD相关的东西,我只能使用Pyspark语法。Window.orderBy(df.BALANCE)
test = df.withColumn('percentile_col',F.percent_