在pySpark中,可以使用select()
方法从数据框中选择特定的列。select()
方法接受一个或多个列名作为参数,并返回一个新的数据框,其中只包含选定的列。
以下是从pySpark中的变量中选择数据框中的列的步骤:
from pyspark.sql import SparkSession
from pyspark.sql.functions import col
spark = SparkSession.builder.getOrCreate()
data = [("Alice", 25, "Female"), ("Bob", 30, "Male"), ("Charlie", 35, "Male")]
df = spark.createDataFrame(data, ["Name", "Age", "Gender"])
selected_columns = ["Name", "Age"]
selected_df = df.select(*selected_columns)
在上述代码中,我们定义了一个包含姓名、年龄和性别的数据框。然后,我们使用select()
方法选择了"Name"和"Age"这两列,并将结果存储在selected_df
变量中。*selected_columns
用于将列名作为参数传递给select()
方法。
选择列后,你可以对selected_df
执行其他操作,如应用过滤器、聚合函数等。
腾讯云相关产品和产品介绍链接地址:
领取专属 10元无门槛券
手把手带您无忧上云