我有很多用户,每个用户都有一个相关联的向量。我想计算每个用户之间的余弦相似度。根据大小,这是禁止的。看起来,LSH是一个很好的近似步骤,我理解它将创建一个桶,在这里,用户被映射到同一个桶中,在这个桶中,它们很可能是相似的。在Pyspark中,下面的示例如下:from pyspark.ml.linalgimport V
我对Pyspark还不熟悉,我试图在Pyspark中创建一个ML模型--我的目标是创建一个TFidf向量器并将这些特性传递给我的支持向量机模型。SparkContext(conf=conf) #dataset is a pandas dataframeprinting all the TFidf vectors
import numpy as