我需要迭代pyspark.sql.dataframe.DataFrame.DataFrame的行。
我以前在pandas中用iterrows()函数做过,但我需要在不使用pandas的情况下为pyspark找到类似的东西。
如果我执行for row in myDF:
,它将迭代columns.DataFrame
谢谢
发布于 2018-07-03 13:07:26
您可以使用select方法通过用户定义的函数对数据帧进行操作,如下所示:
columns = header.columns
my_udf = F.udf(lambda data: "do what ever you want here " , StringType())
myDF.select(*[my_udf(col(c)) for c in columns])
然后,在select中,您可以选择要对每一列执行的操作。
https://stackoverflow.com/questions/51152310
复制相似问题