连接后停止pyspark返回两个'on‘列

在使用 PySpark 进行数据处理时，如果你在连接数据后停止并返回结果，却看到了两个 'on' 列，这通常是因为在连接操作中使用了 on 关键字两次，或者是在连接条件中存在重复的列名。

基础概念

在 PySpark 中，DataFrame 的 join 方法用于根据指定的列或表达式将两个 DataFrame 连接起来。连接操作通常需要指定一个连接键（on），这个键在两个 DataFrame 中都存在，并且用于匹配行。

问题原因

出现两个 'on' 列的原因可能有以下几种：

重复使用 on 关键字：在连接操作中，可能不小心多次使用了 on 关键字。
连接条件中的列名重复：如果两个 DataFrame 中有相同名称的列，并且这些列被用作连接键，可能会导致混淆。

解决方法

检查连接语句：确保在连接操作中只使用了一次 on 关键字。
使用别名：如果两个 DataFrame 中有相同名称的列，可以在连接前为这些列指定不同的别名。

示例代码

假设我们有两个 DataFrame，df1 和 df2，它们都有一个名为 id 的列，我们想要根据这个列进行连接：

from pyspark.sql import SparkSession

# 创建 SparkSession
spark = SparkSession.builder.appName("example").getOrCreate()

# 示例 DataFrame
data1 = [(1, "Alice"), (2, "Bob")]
data2 = [(1, "Engineer"), (3, "Doctor")]

df1 = spark.createDataFrame(data1, ["id", "name"])
df2 = spark.createDataFrame(data2, ["id", "occupation"])

# 正确的连接方式
joined_df = df1.join(df2, on="id", how="inner")

# 显示结果
joined_df.show()

如果 df1 和 df2 中有其他相同名称的列，可以使用别名来避免冲突：

# 假设 df1 和 df2 都有一个名为 'info' 的列
df1 = df1.withColumnRenamed("info", "info1")
df2 = df2.withColumnRenamed("info", "info2")

# 使用别名进行连接
joined_df = df1.join(df2, on=["id"], how="inner")