腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(1857)
视频
沙龙
1
回答
余弦
相似
度
与
Okapi
BM25
有
何
不同
?
、
、
、
我计划使用
余弦
相似
度
,但我注意到它不可用,相反,我们使用
BM25
作为默认评分函数。 这有什么原因吗?
余弦
相似
度
是否不适合查询文档?为什么选择
BM25
作为默认值?谢谢
浏览 29
提问于2019-03-15
得票数 3
回答已采纳
1
回答
Okapi
bm25
和NMSLIB
有
什么区别?
、
、
、
我试图建立一个搜索系统,然后我了解了
Okapi
bm25
,这是一个排序功能,像tf-以色列国防军。您可以对您的语料库进行索引,并在以后检索类似于查询的文档。我知道它是一个
相似
的搜索库,很像kNN算法。标记文件然后将这些词向量
与
bm25
权重结合起来。进行了搜查。所以结论是
bm25
gave好结果和 nmslib &l
浏览 0
提问于2021-02-16
得票数 1
回答已采纳
2
回答
文档
相似
性:向量嵌入
与
BoW性能?
、
、
、
、
我
有
一组文档,每个文档都随着时间的推移而迅速增长。任务是在任何固定时间找到类似的文件。我
有
两种可能的方法:tf-以色列国防军或其变异,如
BM25
。是否有人对tf
与
平均word2vec的文档
相似
性做了定量比较? 还有另一种方法,允许在添加更多文本时动态地细化文档的向量吗?
浏览 0
提问于2017-03-07
得票数 4
1
回答
基于
Okapi
模式的文档
相似
度
计算
、
、
我从这里的和本文的中发现
Okapi
相似
性度量可以用于计算文档
相似
度
例如,我
有
10个文档(文档#A、#B、#C、#D等)在我的文档集合中然后使用这两种方法计算查询文档与其他文档之间的
相似
度
。1)查询单据
与
单据#B= idfOfQueryDoc* tfOfDocument #B的
相
浏览 2
提问于2012-06-13
得票数 1
回答已采纳
1
回答
相似
性评分在gensim中意味着什么?
、
、
、
我使用Gensim库来查找句子
与
段落集合、文本数据集之间的
相似
之处。分别使用了
余弦
相似
度
、软
余弦
相似
度
和移动测度。Gensim返回一个项目列表,包括、docid、和
相似
性评分。对于
余弦
相似
度
和软
余弦
相似
度
,我猜
相似
度
是向量之间的
余弦
。我说的对吗? 在Gensim文档中,他们写
浏览 0
提问于2021-09-20
得票数 0
回答已采纳
1
回答
文档
相似
性-多个文档以相同的
相似
性评分结束
我一直在处理一个业务问题,需要找到
与
现有文档
相似
的新文档。我使用了如下各种方法2.TFIDF +
余弦
相似
他们都没有像预期的那样工作。最后,我发现了一种更好的方法-- Word2vec +软
余弦
相似
性。 但新的挑战是,我最终得到了具有相同
相似
性评分的多个文档。它们大多是相关的,但很少有,即使
有</
浏览 1
提问于2020-04-16
得票数 0
1
回答
如何比较使用两个
不同
的数据集获得的两个
相似
性?
、
我试图通过使用两个
不同
的数据集通过
余弦
相似
度
来计算用户
与
用户的
相似
度
(用户是相同的,只是为了获得
相似
度
而考虑的特征在数据集之间是
不同
的)。现在,有没有一种方法可以根据
相似
度
值来判断这两个数据集
有
多
相似
?
浏览 0
提问于2017-05-22
得票数 0
3
回答
最佳简历,文档匹配
、
、
、
、
我用了三种
不同
的方法来计算简历和工作描述之间的匹配。有人能告诉我什么方法是最好的吗?为什么? Gensim库采用LSA/LSI模型提取关键词,计算文档
与
查询之间的
余弦
相似
度
。
浏览 4
提问于2016-11-02
得票数 1
1
回答
为什么text2vec的RWMD模块中的距离在1和-1之间?
、
、
据我所知,伟大的text2vec软件包的dist2 RWMD特性将矩阵之间的距离计算为
余弦
距离。这不是意味着1-(
余弦
相似
度
)吗?如果
余弦
相似
度
在0到1之间运行,那么不是也应该得到0到1之间的值吗?我不确定在这种情况下如何解释负距离,以及它们
与
正距离
有
何
不同
。谢谢!
浏览 18
提问于2019-10-25
得票数 0
1
回答
项目间的
余弦
相似
性(购买数据)
与
标准化
、
、
、
我使用表示产品用户购买行为的IndexedRowMatrix,为了构建产品推荐,我使用
余弦
相似
度
来计算产品之间的
相似
性。PySpark提供了一个名为columnSimilarities()的函数。我读过关于归一化和
余弦
相似
的文章,并且理解
余弦
相似
已经对向量进行了归一化,就好像我们把向量规范化了一样,
余弦
相似
性就是这两个向量的点乘积。参考文献 另外,
余弦
相似
度
<em
浏览 0
提问于2018-11-19
得票数 3
1
回答
如何比较Python中两个文档的主题分布之间的主题
相似
性?
、
、
现在我已经
有
了每个文档的主题分布,如何比较两个文档在主题中的
相似
程度?我想要一个简要的措施。例如,以下是两个文档的主题分布。总共有75个主题。我应该计算两个向量之间的欧几里德距离还是
余弦
距离?使用这个概括度量,我是否可以说,例如,DOC 1比DOC2更类似于DOC3,或者DOC1和DOC 2在局部上比DOC 3和DOC 4更
相似
?谢谢!
浏览 2
提问于2019-03-22
得票数 4
回答已采纳
1
回答
是否标准化word向量和文档向量之间的
相似
性?
、
、
、
、
余弦
相似
度
被广泛用于度量两个向量之间的
相似
性,其中两个向量可以是单词向量或文档向量。。当两个向量之间的
余弦
相似
度
为0.78xxx时,包括我在内的人可能会期望“这两个向量
有
78 %的
相似
性
浏览 2
提问于2018-05-15
得票数 0
2
回答
使用python对值列表进行
余弦
距离计算
、
、
、
、
我的目标是通过从列表中取一个值来计算f列表(f=[[3492.6], [13756.2], [22442.1], [22361.9], [26896.4]])中每个值的
余弦
相似
度
,并计算列表中其他值
与
之的
余弦
距离
有
多近因此,结果应该是五个
不同
的
相似
性分数。然而,由于某些原因,即使当我在其他数据集上测试代码时,我也一直将1.0作为
余弦
相似
度
。显然,
与
[13756.2]相比,[2236
浏览 0
提问于2013-07-29
得票数 3
1
回答
关于word2vec most_similar()函数
、
、
我使用如下的most_similar()方法来获取
与
给定单词
相似
的所有单词:AFAIK,它的作用是计算给定单词和字典中所有其他单词之间的
余弦
相似
度
。它们是
与
给定单词具有相反含义的单词吗? 另外,如果它使用
余弦
相似
度
,它是如何得到负值的?对于两个文档,
余弦
相似
度
浏览 2
提问于2016-01-19
得票数 5
1
回答
如何计算多类型数据的
余弦
相似
度
?
、
、
我
有
一个使用
余弦
相似
度
的约束。如果变量(属性、列)的类型
不同
,并以以下形式出现:如何进行矢量化以应用
余弦
相似
度
?但是,仅仅将记录的数字转换为矢量中的系数,并将它们
与
字符串的tf-idf连接以计算
余弦
相似
度
,在语义上是“有效的”吗?或者,我可以将数字视为单词,并将tf-idf应用于数字。有没
浏览 5
提问于2013-03-20
得票数 1
1
回答
文档
相似
度
的
不同
方法(LDA、LSA、
余弦
)
、
、
、
、
我
有
一组简短的文档(每段1到2段)。我使用了三种
不同
的文档
相似
度
方法:- tfidf矩阵上的简单
余弦
相似
度
-在整个语料库上应用LDA,然后使用LDA模型为每个文档创建向量,然后应用
余弦
相似
度
。对整个语料库进行-applying LSA,然后使用LSA模型为每个文档创建向量,然后应用
余弦
相似
度
。基于实验,我在没有任何LDA或LSA的情况下,在tfidf矩阵上的简单<
浏览 20
提问于2017-01-06
得票数 0
1
回答
仅对于匹配的文档,
与
Lucene的
余弦
相似
性
、
、
、
例如,如果我
有
索引文档:D2: "Hello, what a beautiful world"在我看来现在,我试图计算文档之间的
余弦
相似
度
。输入查询将是一个文档,输出应该是
余弦
分数。它是介于0到1之间的一个数字。 我已经读过一些计算
余弦
相似
度
的方法,但是它们都是通过比较每个文档的术语向量来实现
浏览 5
提问于2015-09-07
得票数 1
回答已采纳
1
回答
如何用Lucene和Java计算tf-国防军的
余弦
相似
度
、
、
、
我
有
一个查询和一组文档。我需要根据
与
tf-国防军的
余弦
相似
性对这些文件进行排序。请有人告诉我,我能从Lucene那里得到什么支持来计算这个?如何用Lucene计算
余弦
相似
度
(如果传递查询和文档的两个向量,是否
有
直接返回
余弦
相似
度
的函数?) 事先鸣谢
浏览 1
提问于2012-04-16
得票数 2
2
回答
如何在Python中获取两个字典值来查找
余弦
相似
度
?
、
、
我需要使用存储在user_dict字典中的“用户评分”从两个向量中找出
余弦
距离
相似
度
。 评级是从CSV文件导入的,然后更改为字典,以用户为关键字,每个用户的评分值。我的问题是,如何遍历字典以获取两个用户的评分,并使用
余弦
距离函数获得
相似
度
? 循环不需要将相同的用户比较在一起,或者以
不同
的顺序比较相同的用户?(例如,用户5
与
用户3,用户3
与
用户5)
浏览 36
提问于2020-08-05
得票数 0
回答已采纳
1
回答
为什么用
余弦
距离来度量词嵌入之间的
相似
性?
、
、
在计算单词之间的
相似
度
时,cosine
相似
度
或距离是在字向量上计算的。为什么其他的距离度量,如欧几里德距离,不适合这个任务。这是否意味着向量的大小
与
计算单词向量中的
相似
<
浏览 0
提问于2020-09-03
得票数 9
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
对象存储
云点播
实时音视频
活动推荐
运营活动
广告
关闭
领券