在pyspark中,可以使用isNull()和isNotNull()方法来区分dataframe列中的空值和非空值。
spark = SparkSession.builder.getOrCreate()
data = ("Alice", 25, None), ("Bob", None, 80), ("Charlie", 30, 90)
df = spark.createDataFrame(data, "Name", "Age", "Score")
df.withColumn("AgeIsNull", col("Age").isNull()) \
.withColumn("ScoreIsNotNull", col("Score").isNotNull()) \
.show()
输出结果:
+-------+----+-----+---------+--------------+
| Name| Age|Score|AgeIsNull|ScoreIsNotNull|
+-------+----+-----+---------+--------------+
| Alice| 25| null| false| false|
| Bob|null| 80| true| true|
|Charlie| 30| 90| false| true|
+-------+----+-----+---------+--------------+
更多产品信息请参考腾讯云官方文档:腾讯云产品
请注意,以上答案仅供参考,具体的产品选择和推荐应根据实际需求和情况进行评估。
领取专属 10元无门槛券
手把手带您无忧上云