我正在读这个问题:
How to understand Locality Sensitive Hashing?
但是后来我发现计算余弦相似度的公式如下: Cos(v1,v2) = Cos(theta) =(汉明距离/签名长度)* pi = ((h/b) * pi )
这意味着如果向量完全相似,那么汉明距离将为零,余弦值将为1。但当向量完全不相似时,汉明距离将等于签名长度,因此我们得到cos(pi),这将导致-1。相似度不应该总是在0和1之间吗?
发布于 2013-06-20 09:55:21
余弦相似度是向量除以幅值的点积,因此角度的余弦值完全有可能是负值。例如,如果单位向量指向相反的方向,则希望该值为-1。我认为让你困惑的是表示的性质,因为另一篇文章讨论的是二维空间中向量之间的角度,而更常见的是在多维空间中创建向量,在多维空间中,维度的数量通常大于2,并且每个维度的值都是非负的(例如,一个单词是否出现在文档中),结果是0到1的范围。
https://stackoverflow.com/questions/17199719
复制相似问题