SQL Server中计算余弦相似度的优化方法

文章/答案/技术大牛

发布

1回答

、、

我想比较任意两个in在多个维度上的不同向量(即，向量中的组件数量)。为此，我计算余弦相似度。为此，我为我的数据集中的每个id提供了一个向量列表。values (1234,2,5);insert into data values (1234,4,3); 但是在我的表中这会产生一个非常非常大的表。为了<e

浏览 80提问于2021-06-28得票数 1

回答已采纳

1回答

余弦相似度的Pandas到SQL Server列限制

、、、

我正在使用NLTK计算余弦相似度，并将余弦相似度值导出到SQL Server，我想将其用于其他报告目的。我有大约4773列，大约2k行，而SQL Server不支持这些列数？什么会是更好的选择？我有两个数据集，我称之为训练集(2k文档)和测试数据集(4773个文档)，在这个过程中，所有的测试数据记录都将变成列，大约有4773列，这是SQl服务器

浏览 4提问于2016-12-10得票数 0

2回答

修正的余弦相似效率

、、、、

问题所在我试图计算两个数组之间的余弦相似度，但基本公式略有变化。也就是说，我只关心与“引用”数组重叠的组件。例如，B中的第一行是[1 1 0]，所以相似度计算使用修改后的A矩阵： [1 0 0][0

浏览 28提问于2019-10-15得票数 0

回答已采纳

1回答

使用tensorflow获取负余弦距离

、、

我正在使用tf.losses.cosine_distance(Y, outputs, axis=2, reduction=tf.losses.Reduction.MEAN)来衡量我的标签和预测之间的差异在我的例子中，预测的形状是[16311, 20, 100]。----------------------epoch5----------------------余弦<

浏览 0提问于2019-05-29得票数 1

1回答

它展示了如何对我们的自定义数据进行培训。但我不知道该怎么预测。如果有两个新句子，如1)这是第三个例子，2)这是第三个例子。我怎么能预测到这些句子有多相似呢？train_examples, shuffle=True, batch_size=16)保存了与旧代码相比的modelexample sentence", "Each sentence is converted"] model_new.encode(senten

浏览 1提问于2022-01-04得票数 2

1回答

生成两个具有给定角度的向量

、、、

我试图用给定的余弦相似度生成两个向量。输入将是余弦相似度的程度(或者说它取决于它)和向量中的维数(D)，输出将是D维的两个向量，与它们之间给定的相似度，现在我知道如何使用余弦相似函数来计算相似度，但当我尝试相反的方法时，我

浏览 6提问于2022-05-25得票数 1

回答已采纳

3回答

最佳简历，文档匹配

、、、、

我用了三种不同的方法来计算简历和工作描述之间的匹配。有人能告诉我什么方法是最好的吗?为什么？ Gensim库采用LSA/LSI模型提取关键词，计算文档与查询之间

浏览 4提问于2016-11-02得票数 1

1回答

仅对于匹配的文档，与Lucene的余弦相似性

、、、

与将查询与每个文档进行比较的天真方法相比，(即使是那些没有提到查询中存在的任何令牌的文档)，这是一个很大的好处。这是正确的吗？现在，我试图计算文档之间的余弦相似度。输入查询将是一个文档，输出应该是余弦分数。它是介于0到1之间的一个数字。我已经读过一些计算余弦相似度的

浏览 5提问于2015-09-07得票数 1

回答已采纳

1回答

与BigQuery SQL的余弦相似性？

、、

我将向量存储在BigQuery (请参阅)中，我希望找到它们之间最相似的向量。如何用BigQuery标准SQL计算余弦相似度？

浏览 0提问于2017-12-04得票数 4

1回答

我们如何计算由评级表示的两个项目的调整后的余弦相似度？

、、、

我想分别为a和b表示的两个项目计算调整后的余弦相似值。我们取两个向量a={2,3,1,0}和b={1,0,4,2}。我知道余弦相似度是如何工作的，但我坚持使用调整后的余弦相似度方法。

浏览 4提问于2016-02-18得票数 0

2回答

python手套相似性度量计算

、、

我正在尝试理解python如何计算most-similar术语。我知道，从gensim的word2vec中，most_similar方法用余弦距离来计算相似度。 

浏览 1提问于2016-10-31得票数 4

回答已采纳

1回答

Elasticsearch:在相关评分中使用密集向量上的距离(在查询时)

我使用elasticsearch来组合不同的东西：-基于密集向量(余弦相似度)的文本得分搜索。我的问题是，在查询阶段不计算余弦相似度，我在文本中的搜索充当预筛选器。我

浏览 1提问于2020-01-29得票数 1

回答已采纳

1回答

如何用Lucene和Java计算tf-国防军的余弦相似度

、、、

我需要根据与tf-国防军的余弦相似性对这些文件进行排序。请有人告诉我，我能从Lucene那里得到什么支持来计算这个？从Lucene可以直接计算出哪些参数(可以通过lucene中的某些方法直接得到tf、国防军吗？)如何用Lucene计算余弦相似度(如果传递查询和文档的两个向量，是否有直接返回余弦相似度的<

浏览 1提问于2012-04-16得票数 2

2回答

Scipy Python中的高效并行稀疏矩阵点积

、、、、

我有一个非常大(1.5M x 16M)的稀疏csr scipy矩阵A。我需要计算的是每对行的相似度。= 0*1 + 1*0 + 0*2 + 4*3 = 12AT = np.transpose(A)现在pairsi，j是行i和行j的相似</em

浏览 2提问于2015-01-28得票数 2

1回答

用word2vec，doc2vec计算两个文档之间的相似度

、、、、

我正在试图计算两个文档之间的相似性，这两个文档由数千个句子组成。但是，我想捕捉文档之间更多的语义差异。因此，我通过简单地平均每个文档中的所有单词向量，生成文档向量，并度量这些文档向量之间的余弦相似度，从而构建了文档嵌入和计算文档相似度。然而，由于每个输入文档<e

浏览 0提问于2018-11-25得票数 2

回答已采纳

1回答

如何计算TF-IDF

、

我想使用TF-IDF的余弦相似度方法来得到两个单词的语义相似度。首先，我想从wikipedia或word- text中提取这些单词的含义，然后对文本进行预处理并找到TF-IDF。在我的例子中，哪个是训练集，哪个是测试集？如何使用计算结果计算余弦相似度？

浏览 3提问于2012-10-06得票数 1

回答已采纳

1回答

余弦相似度影响

、、

我正在计算余弦相似度，以了解一些年度趋势，我很好奇是否有一种方法可以看到哪些值对相似度贡献最大？是否有一种影响力计算或方法用于单词列表(我认为这将是最相似的应用程序)，可以说列表中的哪些单词对相似度得分贡献最大？

浏览 21提问于2021-07-20得票数 0

回答已采纳

1回答

关于word2vec most_similar()函数

、、

我使用如下的most_similar()方法来获取与给定单词相似的所有单词：AFAIK，它的作用是计算给定单词和字典中所有其他单词之间的余弦相似度。当我检查单词和分数时，我可以看到列表中有负分数的单词。这是什么意思？它们是与给定单词具有相反含义的单词吗？另外，如果它

浏览 2提问于2016-01-19得票数 5

1回答

在gensim文档相似度中，是否可以用Jaccard相似代替余弦相似度？

、、、、

我使用gensim库来计算文档间的相似度，但它只使用余弦相似度。我想知道是否有一种方法可以用jaccard相似性或者其他相似性度量来代替。

浏览 0提问于2016-12-20得票数 2

2回答

可以仅使用非空值在行之间使用余弦相似性吗？

、、

我想要找到一个查询行和另外10个行之间的余弦相似度(或者欧几里得距离，如果更容易)。这些行都是nan值，因此如果列是nan，则忽略它们。因此，我只想得到查询的每个非空列与df列中的行之间的余弦相似性。因此，对于df中的第0行，B和F在查询和df中都是非空的。

浏览 0提问于2019-02-11得票数 5

回答已采纳

点击加载更多