我最近从Spark 1.6迁移到Spark 2.X,我也想-在可能的情况下-从Dataframe迁移到数据集。我试过这样的代码
case class MyClass(a : Any, ...)正如您所看到的,MyClass有一个Any类型的字段,因为我在编译时不知道使用x.get(0)检索的字段的类型。它可以是一个长的、字符串的、整数的<
我有一个非常大的数据集(大约20 it )存储在磁盘上,名为Pandas/PyTables,我想在它上面运行随机森林和增强树。尝试在我的本地系统上做这件事需要很长时间,所以我想把它租给一个我可以访问的spark集群,而不是使用MLLib例程。虽然我已经设法将pandas数据帧加载为spark数据帧,但我对如何在MLLib例程中使用它感到有点困惑。我不太熟悉MLLib,它似乎只接受LabeledPoint<e