余弦相似度与Okapi BM25有何不同？

文章/答案/技术大牛

发布

1回答

、、、

我计划使用余弦相似度，但我注意到它不可用，相反，我们使用BM25作为默认评分函数。这有什么原因吗？余弦相似度是否不适合查询文档？为什么选择BM25作为默认值？谢谢

浏览 29提问于2019-03-15得票数 3

回答已采纳

1回答

Okapi bm25和NMSLIB有什么区别？

、、、

我试图建立一个搜索系统，然后我了解了Okapi bm25，这是一个排序功能，像tf-以色列国防军。您可以对您的语料库进行索引，并在以后检索类似于查询的文档。我知道它是一个相似的搜索库，很像kNN算法。标记文件然后将这些词向量与bm25权重结合起来。进行了搜查。所以结论是 bm25 gave好结果和 nmslib &l

浏览 0提问于2021-02-16得票数 1

回答已采纳

2回答

文档相似性:向量嵌入与BoW性能？

、、、、

我有一组文档，每个文档都随着时间的推移而迅速增长。任务是在任何固定时间找到类似的文件。我有两种可能的方法：tf-以色列国防军或其变异，如BM25。是否有人对tf与平均word2vec的文档相似性做了定量比较？还有另一种方法，允许在添加更多文本时动态地细化文档的向量吗？

浏览 0提问于2017-03-07得票数 4

1回答

基于Okapi模式的文档相似度计算

、、

我从这里的和本文的中发现Okapi相似性度量可以用于计算文档相似度例如，我有10个文档(文档#A、#B、#C、#D等)在我的文档集合中然后使用这两种方法计算查询文档与其他文档之间的相似度。1)查询单据与单据#B= idfOfQueryDoc* tfOfDocument #B的相

浏览 2提问于2012-06-13得票数 1

回答已采纳

1回答

相似性评分在gensim中意味着什么？

、、、

我使用Gensim库来查找句子与段落集合、文本数据集之间的相似之处。分别使用了余弦相似度、软余弦相似度和移动测度。Gensim返回一个项目列表，包括、docid、和相似性评分。对于余弦相似度和软余弦相似度，我猜相似度是向量之间的余弦。我说的对吗？在Gensim文档中，他们写

浏览 0提问于2021-09-20得票数 0

回答已采纳

1回答

文档相似性-多个文档以相同的相似性评分结束

我一直在处理一个业务问题，需要找到与现有文档相似的新文档。我使用了如下各种方法2.TFIDF +余弦相似他们都没有像预期的那样工作。最后，我发现了一种更好的方法-- Word2vec +软余弦相似性。但新的挑战是，我最终得到了具有相同相似性评分的多个文档。它们大多是相关的，但很少有，即使有</

浏览 1提问于2020-04-16得票数 0

1回答

如何比较使用两个不同的数据集获得的两个相似性？

、

我试图通过使用两个不同的数据集通过余弦相似度来计算用户与用户的相似度(用户是相同的，只是为了获得相似度而考虑的特征在数据集之间是不同的)。现在，有没有一种方法可以根据相似度值来判断这两个数据集有多相似？

浏览 0提问于2017-05-22得票数 0

3回答

最佳简历，文档匹配

、、、、

我用了三种不同的方法来计算简历和工作描述之间的匹配。有人能告诉我什么方法是最好的吗?为什么？ Gensim库采用LSA/LSI模型提取关键词，计算文档与查询之间的余弦相似度。

浏览 4提问于2016-11-02得票数 1

1回答

为什么text2vec的RWMD模块中的距离在1和-1之间？

、、

据我所知，伟大的text2vec软件包的dist2 RWMD特性将矩阵之间的距离计算为余弦距离。这不是意味着1-(余弦相似度)吗？如果余弦相似度在0到1之间运行，那么不是也应该得到0到1之间的值吗？我不确定在这种情况下如何解释负距离，以及它们与正距离有何不同。谢谢!

浏览 18提问于2019-10-25得票数 0

1回答

项目间的余弦相似性(购买数据)与标准化

、、、

我使用表示产品用户购买行为的IndexedRowMatrix，为了构建产品推荐，我使用余弦相似度来计算产品之间的相似性。PySpark提供了一个名为columnSimilarities()的函数。我读过关于归一化和余弦相似的文章，并且理解余弦相似已经对向量进行了归一化，就好像我们把向量规范化了一样，余弦相似性就是这两个向量的点乘积。参考文献另外，余弦相似度<em

浏览 0提问于2018-11-19得票数 3

1回答

如何比较Python中两个文档的主题分布之间的主题相似性？

、、

现在我已经有了每个文档的主题分布，如何比较两个文档在主题中的相似程度？我想要一个简要的措施。例如，以下是两个文档的主题分布。总共有75个主题。我应该计算两个向量之间的欧几里德距离还是余弦距离？使用这个概括度量，我是否可以说，例如，DOC 1比DOC2更类似于DOC3，或者DOC1和DOC 2在局部上比DOC 3和DOC 4更相似？谢谢!

浏览 2提问于2019-03-22得票数 4

回答已采纳

1回答

是否标准化word向量和文档向量之间的相似性？

、、、、

余弦相似度被广泛用于度量两个向量之间的相似性，其中两个向量可以是单词向量或文档向量。。当两个向量之间的余弦相似度为0.78xxx时，包括我在内的人可能会期望“这两个向量有78 %的相似性

浏览 2提问于2018-05-15得票数 0

2回答

使用python对值列表进行余弦距离计算

、、、、

我的目标是通过从列表中取一个值来计算f列表(f=[[3492.6], [13756.2], [22442.1], [22361.9], [26896.4]])中每个值的余弦相似度，并计算列表中其他值与之的余弦距离有多近因此，结果应该是五个不同的相似性分数。然而，由于某些原因，即使当我在其他数据集上测试代码时，我也一直将1.0作为余弦相似度。显然，与[13756.2]相比，[2236

浏览 0提问于2013-07-29得票数 3

1回答

关于word2vec most_similar()函数

、、

我使用如下的most_similar()方法来获取与给定单词相似的所有单词：AFAIK，它的作用是计算给定单词和字典中所有其他单词之间的余弦相似度。它们是与给定单词具有相反含义的单词吗？另外，如果它使用余弦相似度，它是如何得到负值的？对于两个文档，余弦相似度

浏览 2提问于2016-01-19得票数 5

1回答

如何计算多类型数据的余弦相似度？

、、

我有一个使用余弦相似度的约束。如果变量(属性、列)的类型不同，并以以下形式出现：如何进行矢量化以应用余弦相似度？但是，仅仅将记录的数字转换为矢量中的系数，并将它们与字符串的tf-idf连接以计算余弦相似度，在语义上是“有效的”吗？或者，我可以将数字视为单词，并将tf-idf应用于数字。有没

浏览 5提问于2013-03-20得票数 1

1回答

文档相似度的不同方法(LDA、LSA、余弦)

、、、、

我有一组简短的文档(每段1到2段)。我使用了三种不同的文档相似度方法：- tfidf矩阵上的简单余弦相似度-在整个语料库上应用LDA，然后使用LDA模型为每个文档创建向量，然后应用余弦相似度。对整个语料库进行-applying LSA，然后使用LSA模型为每个文档创建向量，然后应用余弦相似度。基于实验，我在没有任何LDA或LSA的情况下，在tfidf矩阵上的简单<

浏览 20提问于2017-01-06得票数 0

1回答

仅对于匹配的文档，与Lucene的余弦相似性

、、、

例如，如果我有索引文档：D2: "Hello, what a beautiful world"在我看来现在，我试图计算文档之间的余弦相似度。输入查询将是一个文档，输出应该是余弦分数。它是介于0到1之间的一个数字。我已经读过一些计算余弦相似度的方法，但是它们都是通过比较每个文档的术语向量来实现

浏览 5提问于2015-09-07得票数 1

回答已采纳

1回答

如何用Lucene和Java计算tf-国防军的余弦相似度

、、、

我有一个查询和一组文档。我需要根据与tf-国防军的余弦相似性对这些文件进行排序。请有人告诉我，我能从Lucene那里得到什么支持来计算这个？如何用Lucene计算余弦相似度(如果传递查询和文档的两个向量，是否有直接返回余弦相似度的函数?) 事先鸣谢

浏览 1提问于2012-04-16得票数 2

2回答

如何在Python中获取两个字典值来查找余弦相似度？

、、

我需要使用存储在user_dict字典中的“用户评分”从两个向量中找出余弦距离相似度。评级是从CSV文件导入的，然后更改为字典，以用户为关键字，每个用户的评分值。我的问题是，如何遍历字典以获取两个用户的评分，并使用余弦距离函数获得相似度？循环不需要将相同的用户比较在一起，或者以不同的顺序比较相同的用户？(例如，用户5与用户3，用户3与用户5)

浏览 36提问于2020-08-05得票数 0

回答已采纳

1回答

为什么用余弦距离来度量词嵌入之间的相似性？

、、

在计算单词之间的相似度时，cosine相似度或距离是在字向量上计算的。为什么其他的距离度量，如欧几里德距离，不适合这个任务。这是否意味着向量的大小与计算单词向量中的相似<

浏览 0提问于2020-09-03得票数 9

回答已采纳

点击加载更多