我的最终目标是,如果两个比较列名出现在从df1提取的值列表中,则在df2中使用这两个比较列名。 我有一个名称列表和一个函数,用于检查这些名称在df1中是否作为列名存在。然而,这在python中起作用,在pySpark中不起作用。我得到的错误是:AttributeError: 'DataFrame' object has no attribute 'values'
我在dataset中有一些列名,在字符串中有三个下划线___。使用PySpark,我希望删除下划线之前的所有字符,包括下划线,并将其余字符保留为列名。我需要代码来动态重命名列名,而不是在代码中写入列名。如果___位于列名的开头或结尾,那么它应该只删除___并保留原来的字符。示例:sequence_number user___first_name
us