首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在gensim文档相似度中,是否可以用Jaccard相似代替余弦相似度?

在gensim文档相似度中,是否可以用Jaccard相似代替余弦相似度?
EN

Data Science用户
提问于 2016-12-20 19:22:03
回答 1查看 1.7K关注 0票数 2

我使用gensim库来计算文档间的相似度,但它只使用余弦相似度。我想知道是否有一种方法可以用jaccard相似性或者其他相似性度量来代替。

EN

回答 1

Data Science用户

发布于 2016-12-21 14:02:33

如果您已经训练了gensim模型,则该对象可以充当字典,提供矢量投影(通过https://radimrehurek.com/gensim/models/word2vec.html)。

$ model['computer'] # raw numpy vector of a word array([-0.00449447, -0.00310097, 0.02421786, ...], dtype=float32)

因此,可以手动实现您选择的任何向量比较。通常选择同意符相似性是因为与其他高维投影分组方法相比,它的性能相对较好。

我可以想象实现Jaccard相似性的方法是在每个文档的基础上识别一个关键字列表,并且在比较文档时,包括作为交叉点的同义词。

基于对gensim文档比较文本(https://radimrehurek.com/gensim/similarities/docsim.html)的回顾,我不认为有一个本机实现。

票数 2
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/15839

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档