我需要帮助在pyspark数据帧主题。我有一个数据框架,比如1000+列和100000+ rows.Also,我有10000+ if elif条件,在每个if else条件下,只有很少的全局变量被一些值递增。现在我的问题是,我如何才能仅在pyspark中实现这一点。我读到了过滤器和where函数,它们根据条件返回行,我需要检查这些10000+ if else条件并执行一些操作。
任何帮助都将不胜感激
我试图根据需要在同一行中满足的两个条件从DataFrame中删除一些行。因此,我有5列,其中;如果两列具有相等的值(code1和code2),而另一列(计数)大于1,那么当这两个条件在同一行中满足时,该列将被删除。我也可以保留符合下列条件的栏:
count == 1 'OR' (as opposed to A