问Spark MLLib的Word2Vec余弦相似度大于1
EN

Stack Overflow用户

提问于 2015-10-27 12:54:09

回答 1查看 1.4K关注 0票数 5

http://spark.apache.org/docs/latest/mllib-feature-extraction.html#word2vec

在word2vec的spark实现上，由于某些原因，当迭代或数据分区的数量大于1时，余弦相似度大于1。

据我所知，余弦相似度应该总是-1 < cos < 1。有人知道为什么吗？

neuroscience

machine-learning

word2vec

回答 1

Stack Overflow用户

发布于 2015-11-18 02:33:34

在word2vec的findSynonyms方法中，它不计算余弦相似度v1・vi / |v1| |vi|，而是计算v1・vi / |vi|，其中v1是查询词的向量，vi是候选词的向量。这就是为什么这个值有时会超过1。只是为了找到更接近的单词，没有必要除以|v1|，因为它是常量。

票数 4

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/33360201

复制

相似问题

问Spark MLLib的Word2Vec余弦相似度大于1
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Spark MLLib的Word2Vec余弦相似度大于1EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Spark MLLib的Word2Vec余弦相似度大于1
EN