首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

用pyspark df中的新元素填充空值

在pyspark中,可以使用fillna()函数来填充DataFrame中的空值。fillna()函数接受一个字典作为参数,字典的键是要填充的列名,值是要填充的值。

以下是一个示例代码:

代码语言:txt
复制
from pyspark.sql import SparkSession

# 创建SparkSession
spark = SparkSession.builder.getOrCreate()

# 创建示例DataFrame
data = [("Alice", 25, "F"),
        ("Bob", None, "M"),
        ("Charlie", 30, None)]

df = spark.createDataFrame(data, ["name", "age", "gender"])

# 填充空值
fill_values = {"age": 0, "gender": "Unknown"}
df_filled = df.fillna(fill_values)

# 显示填充后的DataFrame
df_filled.show()

输出结果如下:

代码语言:txt
复制
+-------+---+------+
|   name|age|gender|
+-------+---+------+
|  Alice| 25|     F|
|    Bob|  0|     M|
|Charlie| 30|Unknown|
+-------+---+------+

在上述示例中,我们使用fillna()函数将DataFrame中的空值填充为指定的值。在字典fill_values中,我们指定了要填充的列名和对应的填充值。在这个例子中,我们将"age"列的空值填充为0,将"gender"列的空值填充为"Unknown"。

对于pyspark中的DataFrame,还可以使用其他方法来填充空值,例如使用fill()函数、na对象等。具体使用哪种方法取决于实际需求和个人偏好。

推荐的腾讯云相关产品:腾讯云弹性MapReduce(EMR),详情请参考腾讯云EMR产品介绍

页面内容是否对你有帮助?
有帮助
没帮助

相关·内容

6分33秒

048.go的空接口

5分41秒

040_缩进几个字符好_输出所有键盘字符_循环遍历_indent

领券