我一直在阅读关于Word2Vec的论文(例如这一个),我认为我理解训练向量以最大化在相同上下文中发现其他词的可能性。
然而,我不明白为什么余弦是正确的衡量词的相似性。余弦相似性表示两个向量指向相同的方向,但它们可能有不同的震级。
例如,对于文档来说,余弦相似性比较是有意义的.两个文档可能有不同的长度,但有相似的分布词。
为什么不,比如说,欧几里得距离?
有人能解释为什么余弦相似性对word2Vec有效吗?
发布于 2016-07-18 07:44:34
两个n维向量A和B的余弦相似性定义为:

它就是A和B之间夹角的余弦。
而欧几里得距离定义为

现在考虑向量空间中两个随机元素的距离。对于余弦距离,当cos的范围为- 1,1时,最大距离为1。
然而,对于欧氏距离,这可以是任何非负值。
当维数n变大时,随机选取的两个点的余弦距离越来越接近90°,而R^n的单位立方体中的点的欧几里德距离约为0.41 (n)^0.5 (来源)。
TL;DR
余弦距离对于高维空间中的向量来说是比较好的,因为维数的诅咒()。(不过,我不太确定)
发布于 2016-07-17 19:07:52
这两种距离度量可能有很强的相关性,所以您使用的距离度量可能没有多大关系。正如你所指出的,余弦距离意味着我们根本不用担心向量的长度。
本文指出了词的频率与word2vec向量的长度之间存在着一定的关系。http://arxiv.org/pdf/1508.02297v1.pdf
https://stackoverflow.com/questions/38423387
复制相似问题