我需要一个UDF2,它接受两个参数作为输入,对应于两个类型为String和mllib.linalg.Vector的Dataframe列,并返回一个Tuple2。这可行吗?如果是,我如何注册这个udf()?hiveContext.udf().register("getItemData", get_item_data, WHAT GOES HERE FOR RETURN TYPE?);UDF2<String, org.apac
$apache$spark$rdd$RDD$$dependencies_ of type scala.collection.Seq in instance of org.apache.spark.rdd.MapPartitionsRDD:114) at org.apache.spark.scheduler.Task.run(Task.scala:109)
at
我想在mlflow上记录一个模型,一旦我这样做了,我就可以用python加载的模型来预测概率,但不能用spark_udf来预测。问题是,我仍然需要在模型中有一个预处理功能。, encodes the variables INSIDE; this WORKS现在使用spark_udf进行推断并得到一个错误:X_spark</e
我正在尝试基于下面的spark文档使用PySpark 2.4,pyarrow版本0.15.0和pandas版本0.24.2执行pandas_udf,在调用pandas_udf函数时有问题。# Declare the function and create the UDF return a * b
x = pd.Series([1, 2, 3])
#