我正在运行一个简单的sparkSQL查询,它在两个数据集上进行匹配,每个数据集大约是500 is。所以整个数据都在1TB左右。在.cache行分配了200个任务。失败的地方!我知道我不是在缓存一个巨大的数据,它只是一个数字,为什么它在这里失败了。(DataFrame.scala:1903) at org.apache.spark.sql.DataFrame.col
我有sparkscala应用程序。我正在尝试使用它内部的Futures来并行化几个独立的操作集。我在期货中调用它们,它们返回给我未来类型的DataFrame,我如何在最后合并它们,并在任何未来类型无法计算的情况下抛出错误。下面是我的代码。当我尝试在onComplete块中应用数据帧的联合时,它显示以下错误
value union is not a member