调用UDF函数和get Task not serializable异常

文章/答案/技术大牛

发布

1回答

、、、

因为我需要将rotatekey实现为UDF function，所以代码一直运行良好，直到我做了一些更改，但是我遗漏了一些东西，因为我得到了这个错误 Exception in thread "main"org.apache.spark.SparkException: Task not serializable ... at playground.RotatingKeys.run(RotatingKeys.scalaCaused by: java.io.NotSerializableException: pl

浏览 29提问于2020-07-24得票数 0

回答已采纳

1回答

UDF函数抛出空指针异常

、

所以它会触发getSiteId自定义函数，但由于某些原因，自定义函数总是有空指针异常。如果我将serviceConfig.getSiteId.toInt放在insertIntoCassandra函数中，该函数可以访问serviceConfig，但由于某些原因，我所使用所有UDF函数似乎都抛出了空指针异常每当调用此函数时，它都会在serviceConfig.getAdminKeySpace处抛出空指针异常</e

浏览 3提问于2017-03-10得票数 0

1回答

从外部客户端数据库中获取列值作为spark数据帧中的键

、、

((value: String) => data.get(value)) val resultingDF = df.withColumn("test", lit(getUdf(col("value")))) 假设来自数据库的get返回字符串值"abc"，我希望它存储在dataframe中。但它在调用UDF时抛出错误，如下所示。Caused by: java.lang.RuntimeException: org.apache.spark.SparkExcep

浏览 4提问于2019-04-30得票数 0

2回答

为什么使用UDF查询失败了“任务不可串行化”异常？

、、、

我已经创建了一个UDF，我正在尝试将它应用于连接中的合并结果。理想情况下，我希望在连接过程中这样做： value / 100 .withColumn("value",foo(coalesce(new Column("valueA"), new Column("valueB")))) 但是我得到了异常Tas

浏览 3提问于2017-12-28得票数 0

回答已采纳

1回答

使用不可序列化的对象创建SparkSQL UDF

、、、、

我正在尝试编写一个UDF，我想在sqlContext中的Hive表上使用它。是否有可能从其他库中包含不可序列化的对象？udf函数。(colname) from test").show()org.apache.spark.SparkException: Task not serializable object notserializable (class: sun.misc.BASE64Encoder, value: sun.misc.BASE64Encoder@

浏览 6提问于2017-06-27得票数 0

回答已采纳

1回答

PostgreSQL 9.5:异常处理

、

我有两个列名为employee的表，并创建了两个用于插入和更新操作的函数。这两个函数将通过另一个名为udf_3()的函数调用。我想对第三个函数做异常处理，即udf_3()，它应该给出哪个函数有错误的详细信息。a_id = 99$body$--函数 3:用于调用</e

浏览 9提问于2016-11-25得票数 14

回答已采纳

1回答

WithColumn:显示新列dateTime

、、

我有一个scala函数，计算两个日期之间的差值，以两个LocalDateTime作为参数：我在我的DataFrame的两个字段上应用了这个函数。似乎添加了新列，因为我的数据包含7 fields，它在应用toEquals函数后显示8 fields。

浏览 1提问于2018-04-05得票数 0

回答已采纳

2回答

如何在spark中使用由orElse组成的部分函数作为udf

、

正如问题所述，我想使用一个由orElse组成的部分函数，作为一个在spark中的udf。this worksval gt5Udf = udf(gt5)res: Boolean = true res: Boo

浏览 1提问于2016-10-07得票数 5

回答已采纳

1回答

用火花将字段添加到Csv中

、、、

因此，我有一个CSV，它包含空间(latitude，longitude)和时态(timestamp)数据。问题是，如何为CSV中的每一行添加geohash和timehash字段(因为数据大约为200 GB)？我们尝试使用JavaPairRDD及其函数mapTopair，但问题仍然在于如何将其转换回JavaRdd，然后再转换为CSV？所以我认为这是个糟糕的解决方案，我要求的是一个简单的方法。geohashConverter = new UDF2<Long, Long, String>() { p

浏览 0提问于2018-08-02得票数 0

回答已采纳

1回答

在Databricks上的Scala中无法序列化的任务

、、、、

我正在尝试使用Scala在Databricks中实现UDF功能。获取Task not serializable错误，即使在将函数封装在类中并继承Serializable类之后。请参考以下代码： var cKey = "" return cKey } d

浏览 29提问于2020-05-14得票数 0

1回答

org.apache.spark.SparkException:由: java.io.NotSerializableException引起的不可序列化的任务

、

我有两个Scala代码-- MyMain.scala和MyFunction.scala，分别构建和构建的MyFunction jar将在MyMain中充当UDF。，这个UDF被添加到库类路径中。我已经定义了UDF，但是当我试图在MyMain.scala内部的Spark上使用它时，它正在抛出"Task“java.io.NotSerializableException，如下所示： org.apache.spark.SparkException: Task not seria

浏览 1提问于2019-10-27得票数 2

回答已采纳

1回答

在udf中使用广播火花变量时，如何确保在初始化变量之前不使用该变量？

、、、、

我有一个数据表，我想在一个UDF中引用它。我的UDF和广播变量都属于一个可序列化的helper对象，我在类的顶部初始化了广播变量，并在该类的def中调用了UDF。然而，在评估期间，当尝试访问广播变量时，我会得到一个空指针异常。显然，这里的操作顺序并不像预期的那样发生(在加载广播变量的相关数据之前执行UDF )，所以我假设我需要某种方式来强制执行某种依赖/顺序。为了记录这一点，我不想用对象和类分离的特殊方式来实现它，这是我能想到的最好的方法，可

浏览 5提问于2022-09-08得票数 0

回答已采纳

1回答

Scala爆炸，UDF在数据上失败

、、、

| |-- key: string我想爆炸itemFeatures列，然后将我的数据发送到UDF但是，一旦我包含了explode，调用UDF就会导致以下错误：org.apache.spark.SparkException: Task not serializableval doNextThing(time: String): String = { time+

浏览 1提问于2022-05-14得票数 1

1回答

Spark任务不可序列化

、、、

我们需要几个DataFrame转换，我们认为通过Spark对内存中的DataFrame DataFrame编写一个UDF将完成这项工作。其中最主要的是：我尝试过将“implements”作为这个类(和许多其

浏览 3提问于2016-03-23得票数 1

回答已采纳

1回答

带有多个过滤器的航空公司查询

、

版本3.0.0中不支持用于数据检索的lua脚本和聚合函数吗？如果是的话，还有其他方法来查询3.0.0版本的相同内容吗？endResultSet resultSet = client.queryAggregate(null, stmt, "profile", "filter_order", Value.get("mid334"));com.aerospike.client.AerospikeException: Failed to

浏览 3提问于2015-07-24得票数 0

回答已采纳

1回答

LuisResult未标记为可序列化的。

、、

我有一个LUIS对话框，它成功地检测到意图并调用指定的子对话框。LuisResult { get; set; } { { }它向user.But显示"hello“，然后抛出一个异常[File of type &#

浏览 3提问于2017-10-09得票数 0

回答已采纳

1回答

在Pyspark中使用具有多个参数的Scala UDF

、、、

我有一个用Scala编写的UDF，我希望能够通过Pyspark会话调用它。UDF有两个参数，字符串列值和第二个字符串参数。如果UDF只需要一个参数(列值)，我就可以成功地调用它。如果需要多个参数，我很难调用UDF。以下是我到目前为止在Scala和Pyspark中所能做的事情：class SparkUDFTest() extends Serializable { def s

浏览 1提问于2018-02-12得票数 2

1回答

无法在pyspark azure数据库中的able列中添加udf

、、

用户定义函数 start=[]udf调用 get_res_udf = f.udf(get_delakeys, MapType(Str

浏览 1提问于2022-05-26得票数 0

2回答

Scala对象应用方法从未在星火作业中调用

、、、

我为UDF定义、和UDF声明创建了单独的类。UDF声明：object OPXUdf extends Serializable { OPXUdfDefinitions(argsInput) val myUDF = udf(myDef _)UDF定义： object OPXUdfDefinitio

浏览 2提问于2019-05-07得票数 0

2回答

如何在创建新的用户对象时避免KotlinNullPointerException？

、、、、

我在Firebase中有这个身份验证代码： if (task.isSuccessful= null): Serializable { var name: String?构造函数的调用如何产生此异常？我怎么才能避免呢？

浏览 4提问于2020-06-09得票数 0

回答已采纳

点击加载更多