因为我需要将rotatekey实现为UDF function,所以代码一直运行良好,直到我做了一些更改,但是我遗漏了一些东西,因为我得到了这个错误 Exception in thread "main"org.apache.spark.SparkException: Task not serializable ...
at playground.RotatingKeys.run(RotatingKeys.scalaCaused by: java.io.NotSerializableException: pl
我已经创建了一个UDF,我正在尝试将它应用于连接中的合并结果。理想情况下,我希望在连接过程中这样做: value / 100 .withColumn("value",foo(coalesce(new Column("valueA"), new Column("valueB"))))
但是我得到了异常Tas
因此,我有一个CSV,它包含空间(latitude,longitude)和时态(timestamp)数据。问题是,如何为CSV中的每一行添加geohash和timehash字段(因为数据大约为200 GB)?我们尝试使用JavaPairRDD及其函数mapTopair,但问题仍然在于如何将其转换回JavaRdd,然后再转换为CSV?所以我认为这是个糟糕的解决方案,我要求的是一个简单的方法。geohashConverter = new UDF2<Long, Long, String>() { p
我有两个Scala代码-- MyMain.scala和MyFunction.scala,分别构建和构建的MyFunction jar将在MyMain中充当UDF。,这个UDF被添加到库类路径中。我已经定义了UDF,但是当我试图在MyMain.scala内部的Spark上使用它时,它正在抛出"Task“java.io.NotSerializableException,如下所示:
org.apache.spark.SparkException: Task not seria