在Pyspark中,可以使用withColumn
方法和when
函数来替换Dataframe列中的字符串。具体步骤如下:
from pyspark.sql import SparkSession
from pyspark.sql.functions import when
spark = SparkSession.builder.getOrCreate()
data = [("Alice", "Female"), ("Bob", "Male"), ("Charlie", "Male")]
df = spark.createDataFrame(data, ["Name", "Gender"])
df.show()
输出:
+-------+------+
| Name|Gender|
+-------+------+
| Alice|Female|
| Bob| Male|
|Charlie| Male|
+-------+------+
withColumn
和when
函数替换字符串:df = df.withColumn("Gender", when(df.Gender == "Female", "F").otherwise("M"))
df.show()
输出:
+-------+------+
| Name|Gender|
+-------+------+
| Alice| F|
| Bob| M|
|Charlie| M|
+-------+------+
在上述代码中,我们使用when
函数来判断Gender
列中的值是否为"Female",如果是,则替换为"F",否则替换为"M"。最后,使用withColumn
方法将替换后的结果赋值给Gender
列。
对于Pyspark的Dataframe中的其他列替换字符串的操作,可以按照类似的方式进行。根据具体的需求和条件,使用when
函数来判断并替换相应的值。
腾讯云相关产品和产品介绍链接地址:
领取专属 10元无门槛券
手把手带您无忧上云