我使用gensim库来计算文档间的相似度,但它只使用余弦相似度。我想知道是否有一种方法可以用jaccard相似性或者其他相似性度量来代替。
发布于 2016-12-21 14:02:33
如果您已经训练了gensim模型,则该对象可以充当字典,提供矢量投影(通过https://radimrehurek.com/gensim/models/word2vec.html)。
$ model['computer'] # raw numpy vector of a word array([-0.00449447, -0.00310097, 0.02421786, ...], dtype=float32)
因此,可以手动实现您选择的任何向量比较。通常选择同意符相似性是因为与其他高维投影分组方法相比,它的性能相对较好。
我可以想象实现Jaccard相似性的方法是在每个文档的基础上识别一个关键字列表,并且在比较文档时,包括作为交叉点的同义词。
基于对gensim文档比较文本(https://radimrehurek.com/gensim/similarities/docsim.html)的回顾,我不认为有一个本机实现。
https://datascience.stackexchange.com/questions/15839
复制相似问题