http://spark.apache.org/docs/latest/mllib-feature-extraction.html#word2vec
在word2vec的spark实现上,由于某些原因,当迭代或数据分区的数量大于1时,余弦相似度大于1。
据我所知,余弦相似度应该总是-1 < cos < 1。有人知道为什么吗?
发布于 2015-11-18 02:33:34
在word2vec
的findSynonyms
方法中,它不计算余弦相似度v1・vi / |v1| |vi|
,而是计算v1・vi / |vi|
,其中v1
是查询词的向量,vi
是候选词的向量。这就是为什么这个值有时会超过1。只是为了找到更接近的单词,没有必要除以|v1|
,因为它是常量。
https://stackoverflow.com/questions/33360201
复制相似问题