文章/答案/技术大牛

发布

社区首页 >问答首页 >在gensim文档相似度中，是否可以用Jaccard相似代替余弦相似度？

问在gensim文档相似度中，是否可以用Jaccard相似代替余弦相似度？
EN

Data Science用户

提问于 2016-12-20 19:22:03

回答 1查看 1.7K关注 0票数 2

我使用gensim库来计算文档间的相似度，但它只使用余弦相似度。我想知道是否有一种方法可以用jaccard相似性或者其他相似性度量来代替。

similarity

gensim

cosine-distance

machine-learning

data-mining

回答 1

Data Science用户

发布于 2016-12-21 14:02:33

如果您已经训练了gensim模型，则该对象可以充当字典，提供矢量投影(通过https://radimrehurek.com/gensim/models/word2vec.html)。

$ model['computer'] # raw numpy vector of a word array([-0.00449447, -0.00310097, 0.02421786, ...], dtype=float32)

因此，可以手动实现您选择的任何向量比较。通常选择同意符相似性是因为与其他高维投影分组方法相比，它的性能相对较好。

我可以想象实现Jaccard相似性的方法是在每个文档的基础上识别一个关键字列表，并且在比较文档时，包括作为交叉点的同义词。

基于对gensim文档比较文本(https://radimrehurek.com/gensim/similarities/docsim.html)的回顾，我不认为有一个本机实现。

票数 2

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/15839

复制

相似问题

问在gensim文档相似度中，是否可以用Jaccard相似代替余弦相似度？
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在gensim文档相似度中，是否可以用Jaccard相似代替余弦相似度？EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在gensim文档相似度中，是否可以用Jaccard相似代替余弦相似度？
EN