在Spark中,可以使用filter()
函数来过滤DataFrame。如果一列是另一列的成员,可以使用isin()
函数来进行过滤。
具体步骤如下:
from pyspark.sql import SparkSession
from pyspark.sql.functions import col
spark = SparkSession.builder.getOrCreate()
data = [("John", "A"), ("Mike", "B"), ("Sarah", "A"), ("Emma", "C"), ("Tom", "B")]
df = spark.createDataFrame(data, ["Name", "Grade"])
df.show()
输出:
+-----+-----+
| Name|Grade|
+-----+-----+
| John| A|
| Mike| B|
|Sarah| A|
| Emma| C|
| Tom| B|
+-----+-----+
filtered_df = df.filter(col("Grade").isin(["A", "B"]))
filtered_df.show()
输出:
+-----+-----+
| Name|Grade|
+-----+-----+
| John| A|
| Mike| B|
|Sarah| A|
| Tom| B|
+-----+-----+
在这个例子中,我们使用isin(["A", "B"])
来过滤Grade列中值为"A"或"B"的行。
对于腾讯云相关产品和产品介绍链接地址,可以参考腾讯云官方文档或官方网站获取更详细的信息。
领取专属 10元无门槛券
手把手带您无忧上云