腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
为什么
我
的
余弦
相似
度
总是
为
正
?(
快速
文本
)
、
、
、
我
正在尝试评估代表单词
的
两个向量
的
余弦
相似
度
。
我
使用
的
是
快速
文本
中预先训练好
的
单词向量。现在,
我
想知道
为什么
我
的
余弦
相似
度
总是
正数,不管我用
的
是什么词。有什么建议吗? 这是
我
的
代码
的
一部
浏览 15
提问于2020-03-26
得票数 0
1
回答
Spark MLLib
的
Word2Vec
余弦
相似
度
大于1
、
、
在word2vec
的
spark实现上,由于某些原因,当迭代或数据分区
的
数量大于1时,
余弦
相似
度
大于1。 据我所知,
余弦
相似
度
应该
总是
-1 < cos < 1。有人知道
为什么
吗?
浏览 1
提问于2015-10-27
得票数 5
1
回答
在没有方向
的
情况下,如何利用文档特征向量上
的
余弦
相似
度
公式?
、
在数据科学中,为了识别文档
的
相似
性,我们将文档转换为特征向量。然后应用源文档与目标文档特征向量之间
的
余弦
角公式。 然而,
余弦
公式仅适用于向量。一个矢量应该有两个震级和方向。对于表示
为
向量
的
文档,方向在哪里?
浏览 0
提问于2020-05-17
得票数 1
1
回答
为什么
text2vec
的
RWMD模块中
的
距离在1和-1之间?
、
、
据我所知,伟大
的
text2vec软件包
的
dist2 RWMD特性将矩阵之间
的
距离计算
为
余弦
距离。这不是意味着1-(
余弦
相似
度
)吗?如果
余弦
相似
度
在0到1之间运行,那么不是也应该得到0到1之间
的
值吗?
我
不确定在这种情况下如何解释负距离,以及它们与
正
距离有何不同。谢谢!
浏览 18
提问于2019-10-25
得票数 0
1
回答
相似
性评分在gensim中意味着什么?
、
、
、
我
使用Gensim库来查找句子与段落集合、
文本
数据集之间
的
相似
之处。分别使用了
余弦
相似
度
、软
余弦
相似
度
和移动测度。Gensim返回一个项目列表,包括、docid、和
相似
性评分。对于
余弦
相似
度
和软
余弦
相似
度
,
我
猜
相似
度
是向量之间
的</
浏览 0
提问于2021-09-20
得票数 0
回答已采纳
1
回答
Elasticsearch:在相关评分中使用密集向量上
的
距离(在查询时)
我
使用elasticsearch来组合不同
的
东西:-基于密集向量(
余弦
相似
度
)
的
文本
得分搜索。
我
的
问题是,在查询阶段不计算
余弦
相似
度
,
我
在
文
浏览 1
提问于2020-01-29
得票数 1
回答已采纳
1
回答
欧几里德与
余弦
相似
、
、
、
、
我
有一个
文本
数据集,
我
用tfidf技术矢量化,现在为了进行聚类分析,
我
正在测量这些向量表示之间
的
距离。
我
发现一种常用
的
方法是用
余弦
相似
度
来度量距离,当我问
为什么
不使用欧氏距离时,通常
的
回答是,当向量
的
大小不同时,
余弦
相似
性更好。由于我
的
文本
矢量化表示是归一化
的
,
我</
浏览 0
提问于2018-04-11
得票数 2
回答已采纳
1
回答
文档
相似
度
的
不同方法(LDA、LSA、
余弦
)
、
、
、
、
我
有一组简短
的
文档(每段1到2段)。
我
使用了三种不同
的
文档
相似
度
方法:- tfidf矩阵上
的
简单
余弦
相似
度
-在整个语料库上应用LDA,然后使用LDA模型
为
每个文档创建向量,然后应用
余弦
相似
度
。对整个语料库进行-applying LSA,然后使用LSA模型
为
每个文档创建向量,然后应用
余弦
相似
<e
浏览 20
提问于2017-01-06
得票数 0
1
回答
使用scipy
的
各种稀疏矩阵乘积
的
性能
、
、
、
我
有一个术语文档矩阵作为稀疏矩阵( csr或coo矩阵),还有一个要进行
相似
性比较
的
特征向量。
我
想尝试以下方法:虽然fisrt方法利用了
快速
向量化和内建
余弦
<em
浏览 2
提问于2018-12-10
得票数 1
1
回答
在
快速
文本
中有没有什么方法可以将两个单词作为输入并返回它们
的
相似
度
、
、
我
按照文档运行了
快速
文本
,相当简单。诸如$ ./fasttext nn result/fil9.bin之类
的
命令可用于查找单词
的
最近邻居。然而,在
快速
文本
中有没有这样
的
简单命令,它接受"Vehicle“和"Car”等两个单词作为输入,并返回它们
的
(
余弦
)
相似
度
,即类似于0.777
的
数字。
浏览 0
提问于2018-12-20
得票数 1
1
回答
三重损失暹罗神经网络模型评价(model.evaluate) -- tensorflow
、
、
、
、
我
训练了一个使用三重态损失
的
暹罗神经网络。这很痛苦,但我想我成功了。然而,
我
很难理解如何用这个模型来进行评估。所以基本上,
我
想要model.evaluate(input1, input2, y_label)。但我不知道如何用
我
训练过
的
模型来实现这个目标。
我
知道
我
应该保存
我
训练过
的
模型
的
重量,但我只是不知道该把重量加载到哪个模型上。 非常感谢您
的
帮助!编辑:
我
知道下
浏览 12
提问于2022-04-22
得票数 6
回答已采纳
4
回答
基于elasticsearch
的
Word2vec
文本
相似
性搜索
、
我
有一个很大
的
文本
集合,每个
文本
都在
快速
增长。
我
需要实现一个
相似
性搜索。是否可以使用elasticsearch来获取
余弦
相似</e
浏览 93
提问于2017-02-23
得票数 20
1
回答
在keras中结合使用Gensim Fasttext模型和LSTM nn
、
、
、
、
我
已经用Gensim在非常短
的
句子(最多10个单词)语料库上训练了
快速
文本
模型。
我
知道
我
的
测试集中包含不在
我
的
训练语料库中
的
单词,即
我
的
语料库中
的
一些单词,如“催产素”、“来曲霉素”、"Ematrophin“、”Betaxitocin“。给定测试集中
的
一个新词,fasttext非常清楚地知道通过使用字符级n-gram来生成与训练集中<e
浏览 25
提问于2020-07-06
得票数 4
回答已采纳
1
回答
快速
比较查询与语料库中文档
的
余弦
相似
度
、
、
、
我
很好奇公司通常是如何
快速
计算整个语料库之间
的
余弦
相似
度
的
。例如,如果有人搜索术语“有趣
的
猫”,并且有100,000个文档至少包含这些术语中
的
一个,则动态计算查询向量和这100,000个文档向量之间
的
余弦
相似
度
可能需要很长时间。是否有缓存或加速此搜索
的
一般策略?
浏览 2
提问于2015-07-17
得票数 0
1
回答
当我使用
余弦
相似
度
时,
为什么
我
得到
的
邓恩指数是负值?
、
、
、
我
使用k-means对归一化数据进行聚类。
我
使用了不同
的
相似
度
矩阵,如欧几里得、曼哈顿和
余弦
,当我使用
余弦
相似
度
时,Dunn指数
为
负值。
我
读到过邓恩指数
的
取值范围从0到无穷大。使用
余弦
相似
度
计算Dunn指数是正确
的
吗?
我
用过this implementation of Dunn Index。
浏览 94
提问于2019-06-12
得票数 1
回答已采纳
1
回答
DeepLearning4J - ParagraphVectors:
为什么
相似
性是负面的?
、
、
、
、
我
正在使用DeepLearning4j框架中
的
ParagraphVector工具。
我
正在做
的
是在一组
文本
文档上训练模型,然后计算这些文档之间
的
相似
度
。现在,正如参考页面()所说,该工具用来计算
相似
度
的
度量是
余弦
相似
度
,它应该包含在0到1之间。但是,对于某些文档对,
我
得到了负分。提前谢
浏览 0
提问于2016-02-29
得票数 0
3
回答
Jaccard
相似
与
余弦
相似
的应用与区别
Jaccard
相似
度
和
余弦
相似
度
是比较项目
相似
性时常用
的
两种度量方法。然而,在哪种情况下哪一种比另一种更可取,
我
并不十分清楚。有人能帮助澄清这两种测量方法
的
差异(概念或原理
的
差异,而不是定义或计算)及其更好
的
应用吗?
浏览 0
提问于2015-02-12
得票数 39
回答已采纳
3
回答
最佳简历,文档匹配
、
、
、
、
我
用了三种不同
的
方法来计算简历和工作描述之间
的
匹配。有人能告诉
我
什么方法是最好
的
吗?
为什么
? Gensim库采用LSA/LSI模型提取关键词,计算文档与查询之间
的</em
浏览 4
提问于2016-11-02
得票数 1
1
回答
项目间
的
余弦
相似
性(购买数据)与标准化
、
、
、
我
使用表示产品用户购买行为
的
IndexedRowMatrix,为了构建产品推荐,
我
使用
余弦
相似
度
来计算产品之间
的
相似
性。PySpark提供了一个名为columnSimilarities()
的
函数。
我
的
问题是,在使用columnSimilarities()之前,是否需要规范每个产品
的
向量?
我
读过关于归一化和
余弦
相似
的文章,并且理解
浏览 0
提问于2018-11-19
得票数 3
1
回答
当使用位置敏感散列时,
余弦
相似
度
可以是-1吗?
、
、
我
正在读这个问题: 这意味着如果向量完全
相似
,那么汉明距离将为零,
余弦
值将为1。但当向量完全不
相似
时,汉明距离将等于签名长度,因此我们得到cos(pi),这将导致-1。
相似
度
不应该
总是
在0和1之间吗?
浏览 4
提问于2013-06-20
得票数 1
回答已采纳
点击加载更多
相关
资讯
为什么加班的总是你?兼答同学问——如何把文本和数字中的空格快速删除
文本分析大规模文本处理(1)
NLP中的嵌入和距离度量
大模型时代的向量数据库(已完结)
机器学习基础:相似度和距离度量究竟是什么
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
云直播
活动推荐
运营活动
广告
关闭
领券