在pyspark中,可以使用fillna()
函数来填充各种缺失的分类数据。fillna()
函数可以接受一个字典作为参数,其中键是要填充的列名,值是要填充的值。以下是一个示例代码:
from pyspark.sql import SparkSession
from pyspark.sql.functions import col
# 创建SparkSession
spark = SparkSession.builder.getOrCreate()
# 创建示例数据集
data = [("Alice", "Female", 25),
("Bob", None, 30),
("Charlie", "Male", None)]
df = spark.createDataFrame(data, ["Name", "Gender", "Age"])
# 填充缺失的分类数据
filled_df = df.fillna({"Gender": "Unknown"})
# 显示填充后的数据
filled_df.show()
在上述代码中,我们创建了一个包含姓名、性别和年龄的示例数据集。其中,性别和年龄存在缺失值。使用fillna()
函数,我们将缺失的性别数据填充为"Unknown"。最后,通过show()
函数显示填充后的数据。
关于pyspark中填充缺失的分类数据的更多信息,可以参考腾讯云的Spark SQL文档:Spark SQL文档。
领取专属 10元无门槛券
手把手带您无忧上云