腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
关于word2vec most_similar()函数
text-mining
、
gensim
、
word2vec
我使用如下
的
most_similar()方法来获取与给定单词相似的所有单词:AFAIK,它
的
作用是计算给定单词和字典中所有其他单词
之间
的
余弦
相似度。当我检查单词和分数时,我可以看到列表中有
负
分数
的
单词。这是什么意思?它们
是
与给定单词具有相反含义
的
单词吗? 另外,如果它使用
余弦
相似度,它
浏览 2
提问于2016-01-19
得票数 5
1
回答
当我使用
余弦
相似度时,
为什么
我得到
的
邓恩指数
是
负值?
matlab
、
cluster-analysis
、
distance
、
cosine-similarity
我使用了不同
的
相似度矩阵,如欧几里得、曼哈顿和
余弦
,当我使用
余弦
相似度时,Dunn指数为负值。我读到过邓恩指数
的
取值范围从0到无穷大。使用
余弦
相似度计算Dunn指数
是
正确
的
吗?
浏览 94
提问于2019-06-12
得票数 1
回答已采纳
1
回答
word2vec
的
余弦
相似性
大于1
python
、
apache-spark
、
pyspark
我使用spark
的
word2vec算法来计算文本
的
文档
向量
。w2vmodel.findSynonyms('science',4).show(5)| wordneuroscience|1.4968051528391833| | psychology|
浏览 0
提问于2016-12-29
得票数 6
4
回答
向量
空间模型:
余弦
相似度与欧氏距离
vector
、
distance
、
euclidean-distance
、
trigonometry
我有机密文本
的
语料库。通过这些,我创造了
向量
。每个
向量
对应于一个文档。
向量
分量
是
本文档中
的
字权值,以TFIDF值计算。接下来,我建立了一个模型,其中每个类都是由一个
向量
表示
的
。模型中
的
向量
和语料库中
的
类一样多。模型
向量
的
分量计算为该类中从
向量
中提取
的
所有分量值
的
平均值。对于非分类
向量
,我通过计
浏览 0
提问于2013-10-16
得票数 40
回答已采纳
1
回答
余弦
相似度与
余弦
距离
的
区别
python
、
scikit-learn
、
scipy
、
cosine-similarity
它看起来像scipy.spatial.distance.cdist
余弦
相似距离: 不同于sklearn.metrics.pairwise.cosine_similarity,后者
是
有人知道
为什么
会有不同
的
定义吗?
浏览 1
提问于2019-10-15
得票数 13
回答已采纳
2
回答
为什么
word2Vec使用
余弦
相似度?
nlp
、
deep-learning
、
word2vec
我一直在阅读关于Word2Vec
的
论文(例如),我认为我理解训练
向量
以最大化在相同上下文中发现其他词
的
可能性。例如,对于文档来说,
余弦
相似性
比较
是
有意义
的
浏览 4
提问于2016-07-17
得票数 17
回答已采纳
1
回答
gensim similar_by_word函数
的
相似度是多少?
gensim
基因similar_by_word函数
的
相似性
是多少?similar_by_word函数返回一个序列(word,
相似性
)。这里
的
相似性
定义是什么?它是如何计算
的
?
浏览 0
提问于2019-02-11
得票数 0
回答已采纳
1
回答
tf-以色列国防军不同长度
的
文件
python
、
normalization
、
tf-idf
、
textblob
当文档长度非常不同时(例如,文档长度从500字到2500字不等),我搜索了关于规范tf等级
的
网页。 我发现
的
唯一
的
规范化讨论
是
将术语频率除以文档
的
长度,从而导致文档
的
长度没有任何意义。但是,这种方法对tf
的
规范化来说是非常糟糕
的
方法。如果有的话,这会导致每个文档
的
tf等级有很大
的
偏差(除非所有文档都是从几乎相同
的
字典中构造
的
,而使用tf-国防军时则不是这样)。例如,让我们拿
浏览 2
提问于2016-09-26
得票数 10
回答已采纳
1
回答
如何获得与自动编码器
的
相似性
?
deep-learning
、
similarity
、
autoencoder
我已经建立了一个自动编码器从一个非常高
的
维度(200维)空间提取一个更小但重要
的
表示(16个维度)。 现在我有了这些“编码”
向量
,我想要计算某种相似的分数,或者聚类。
浏览 0
提问于2019-07-08
得票数 1
回答已采纳
1
回答
余弦
相似-缺点作为推荐引擎?
neo4j
、
machine-learning
、
knn
、
recommendation-engine
、
cosine-similarity
我见过在K-最近邻算法中使用
余弦
相似性
来生成基于用户偏好
的
推荐。在这些模型中,将给定产品
的
用户等级作为
向量
,然后由
两个
向量
之间
的
余弦
相似度来确定
两个
用户
之间
的
相似度。(例如) 我
的
问题
是
:能解释使用Cosine
相似性
的
推荐引擎
是
如何计算出并行用户偏好
的
吗?在
浏览 2
提问于2014-10-07
得票数 1
回答已采纳
1
回答
搜索引擎中查询与文档
的
余弦
相似度
nlp
、
ranking
、
information-retrieval
、
cosine-similarity
、
ranking-functions
我正在翻阅曼宁
的
情报检索书。目前我在关于
余弦
相似性
的
部分。有一件事我不清楚。这里有一个例子:我们有用户查询“猫食
浏览 1
提问于2017-11-05
得票数 1
1
回答
是否标准化word
向量
和文档
向量
之间
的
相似性
?
vector
、
compare
、
similarity
、
word2vec
、
doc2vec
余弦
相似度被广泛用于度量
两个
向量
之间
的
相似性
,其中
两个
向量
可以是单词
向量
或文档
向量
。。当
浏览 2
提问于2018-05-15
得票数 0
1
回答
匹配2个文本文档
的
最佳方法
tf-idf
、
textmatching
我试着制作这样一个软件,使
两个
文本文档智能地类似于检查文本匹配
的
程度,而不像DIFF,我在Google上搜索了一个相当多
的
东西,我发现了
两个
东西,就是Graph&TF下手。
浏览 2
提问于2015-01-06
得票数 0
回答已采纳
1
回答
在没有方向
的
情况下,如何利用文档特征
向量
上
的
余弦
相似度公式?
classification
、
vector-space-models
在数学中,
向量
具有大小和方向。然而,
余弦
公式仅适用于
向量
。一个矢量应该有
两个
震级和方向。对于表示为
向量
的
文档,方向在哪里?
浏览 0
提问于2020-05-17
得票数 1
1
回答
潜在语义分析如何处理语义
nlp
、
latent-semantic-analysis
但我不明白它在LSA
是
如何运作
的
。有人能告诉我LSA
是
如何处理语义
的
吗。
浏览 5
提问于2014-08-15
得票数 1
回答已采纳
1
回答
为什么
在gensim doc2vec中单词或文档
向量
之间
几乎所有的
余弦
相似点都是正
的
?
python
、
gensim
、
word2vec
、
doc2vec
我使用gensim中
的
Doc2Vec.docvecs.similarity()计算了文档
的
相似性
。现在,如果gensim使用
余弦
的
绝对值作为
相似性
度量,我希望
余弦
相似性
在0.0,1.0
之间
,或者如果不使用,大约有一半
是
负
的
。然而,我看到
的
是
,有些相似之处
是
负面的,但它们是非常罕见
的
--在我
的
3
浏览 6
提问于2017-06-03
得票数 3
回答已采纳
2
回答
在求
余弦
相似性
时,非额定场
的
值应该是多少?
correlation
、
recommender-system
、
cosine-distance
我正在研究一个非常基本
的
图书推荐系统。我想知道在找到
余弦
相似性
时,用户没有给它们打分
的
字段该如何处理,我们应该忽略它们,只用赋值字段计算,或者标记它们为0。我所遵循
的
书说,排除字段,因为它会给出错误
的
解释,在欧几里德和皮尔逊相关
的
情况下,但在
余弦
相似的情况下,它使所有的非额定场为0。有人能解释
为什么
只对于
余弦
而不是其他人需要将未分级
的
字段设置为0,或者有不同
的
方法来做到这一点。(我
浏览 0
提问于2016-06-12
得票数 8
1
回答
计算2行
向量
的
cos
相似性
,并不是所有成对
的
cdists
python
、
scikit-learn
、
cosine-similarity
我有
两个
熊猫df触发器和动作,其中包含25维
的
特征
向量
写入行,并希望在相应
的
行
之间
的
余弦
相似性
。下面的代码生成成对
余弦
相似性
的
20675 x 20675矩阵:(20675, 25)(20675, 25)result = cdist(trigger, action, metri
浏览 1
提问于2018-04-15
得票数 0
回答已采纳
2
回答
使用相同源
的
余弦
相似和完全不同
的
结果
python
、
machine-learning
、
cosine-similarity
、
word-embedding
、
machine-translation
我正在学习单词嵌入和
余弦
相似性
。我
的
数据
是
由两组相同
的
词组成
的
,但用
的
是
两种不同
的
语言。 我是否应该期望获得同样
的
结果?我注意到有时我有<e
浏览 3
提问于2019-07-24
得票数 0
回答已采纳
1
回答
当与其他
向量
比较时,确定
向量
中
的
每个元素对
余弦
相似性
的
贡献。
feature-selection
、
cosine-distance
、
siamese-networks
我有一个
向量
,表示我
的
对象,并通过使用
余弦
相似性
来计算哪个对象与另一个对象相似。a = [1,2,3,4,5,6]我
的
问题
是
: 如何确定
向量
中需要哪些特征我需要这个结果来找出我需要在
向量
中包
浏览 0
提问于2022-12-23
得票数 0
点击加载更多
相关
资讯
RUBER:一种无监督对话系统回复质量的评价方法
相似性与相关性度量
深度学习第45讲:GloVe词向量与相关应用
大模型时代的向量数据库(已完结)
5分钟学习KNN 算法
热门
标签
更多标签
云服务器
对象存储
ICP备案
云点播
语音识别
活动推荐
运营活动
广告
关闭
领券