我在Java8中使用Spark。我有一个数据帧,其中一列包含一个mllib.linalg.Vector。我希望将数据帧中的另一列(例如ID列) groupBy,并将特征向量"collect_list“到列表中。我得到了下面的错误。我不明白为什么。这是一个泛型操作,为什么它关心列中数据的类型?No handler for Hive udf class or
我正在尝试计算Spark数据帧中某列中的所有两个可能的单词对之间的相似度。我已经创建了一个UDF和一个数据帧来测试函数,我将它们定义如下: #Similarity Function metric_lcs =i in vector: p.append(1 - metric_lcs.distance(i, j))
return p