在Spark SQL(Databricks)中,可以通过使用withColumn
方法来重用已创建的列。
withColumn
方法用于添加、替换或重命名DataFrame中的列。要重用已创建的列,可以使用withColumn
方法将已有的列添加到新的DataFrame中。
以下是在Spark SQL(Databricks)中重用已创建的列的步骤:
spark.createDataFrame
方法从数据源(如CSV文件、数据库表等)中加载数据。df = spark.createDataFrame([(1, "John", 25), (2, "Jane", 30), (3, "Bob", 35)], ["id", "name", "age"])
withColumn
方法创建一个新的DataFrame,并将已有的列添加到新的DataFrame中。new_df = df.withColumn("new_column", df["age"] + 1)
在上面的示例中,我们将已有的age
列添加到新的DataFrame中,并将其重命名为new_column
。可以根据需要进行其他操作,如对列进行计算、重命名等。
filtered_df = new_df.filter(new_df["new_column"] > 30)
在上面的示例中,我们对新的DataFrame进行了过滤操作,筛选出new_column
大于30的行。
领取专属 10元无门槛券
手把手带您无忧上云