如何在python中提高词移位距离相似度，并使用加权句子提供相似度评分

、、、、

单词移动距离可用于识别文本之间的相似性。这种相似性可用于比较多个文本以找到最接近的相似文本。然而，我无法定制算法来做以下事情:1)消除位置(GPE) -由spacy识别，在文本中在比较相似度时有任何权重。2)对文本第一句中的特征赋予更多的权重，而不是第二句和第二句中的特征比第三句中的特征更重要，以此类推。传递针对WMD相似度的酒店描述，结果标识描述，例如 -DEF是芝加哥的一家餐厅

浏览 27提问于2019-02-05得票数 1

回答已采纳

1回答

将段落拆分成有意义的子段落

、、

在自然语言处理中，如何将段落拆分成有意义的小节，或者换句话说，我想要检测小节之间的边界

浏览 3提问于2020-06-03得票数 0

3回答

根据一组文档中的相似度对句子进行排序的最佳方法

、、

我想知道从一组文档中根据相似度对句子进行排序的最佳方法。例如，假设，以文档1为主要内容的5个documents.Each文档包含多个sentences.Lets，即输出将包含来自该文档的句子的列表应该是所有5个文档中排名最相似的句子列表，第一个排序的句子是所有5个文档中最相似的句子，然后是第二个，然后是第三个...

浏览 0提问于2012-01-04得票数 0

回答已采纳

1回答

NLP -将具有相同含义的单词组合为一个单词

、、

我的问题是，我是否可以使用NLP将相同含义的单词组合成一个单词，例如，考虑以下行；2.noisy, chatter, shouting, noise -> Noise NoiseCome on people whats up with all the

浏览 2提问于2018-05-04得票数 0

1回答

数值和文本值的组合之间的余弦相似度

、、

基本上，他们使用一些文本字段来构建计数向量器矩阵，然后对行进行余弦相似度计算，以获得电影之间的相似度。他们后来说引入受欢迎程度过滤器:该推荐器将选取30部最相似的电影，计算加权评分(使用上面的IMDB公式)，根据该评分对电影进行排序，并返回前10部电影。我正在尝试使用类别、属性、纬度和对数(对于距离)、明星和评论计数(基于评论计数对明星进行加权

浏览 27提问于2021-02-27得票数 0

回答已采纳

6回答

百分比相似度分析(Java)

、

我有以下情况：有没有什么想法或标准算法来计算相似度百分比？例如，在上面的情况下，通过人工查找估计的相似度应该是90%++。在这种情况下，唯一的问题是如何计算相当准确的相似度百分比。非常感谢你的

浏览 2提问于2010-03-06得票数 4

回答已采纳

1回答

对问答系统NLP的几点建议

、、、

任何关于如何使用NLP实现这一点的想法都会非常有帮助。提前感谢！！

浏览 2提问于2020-03-15得票数 0

3回答

NLP算法计算最大5-6字句子间的相似度

、、

我正在寻找一个相对简单的NLP algo，这将帮助我评估两个句子之间的相似性。这些句子通常在1-5个单词之间，大约.上下文：量化用户级别上高度相似的类别对的数量。哪个简单的NLP算法可以很好地完成这项工作，而不需要像谷歌这样的公司使用某种凸性的神经网络。听说向量空间的余弦相似但不确定相似性比率的合适阈值是什么？我想这是主观的，但任何建议都是值得赞赏的。

浏览 0提问于2022-04-01得票数 1

2回答

作为一个启动项目，我正在开发一个释义识别器(一个可以识别两个类似句子的系统)。对于这个识别器，我将在三个层次上应用不同的度量，即:词汇、句法和语义。在词汇层面，有多种相似性度量，如余弦相似度、匹配系数、Jaccard系数等。对于这些度量，我使用谢菲尔德大学( University )开发的simMetrics软件包，其中包含了许多相似的度量。但是对于Levenshtein距离和Jaro-Winkler距离度量而言，代码只位于字符级别的

浏览 4提问于2011-01-08得票数 3

1回答

用于查找相似句子的Gensim和Annoy

、、

我在数据库中有大量的句子，我想找到这些句子中与用户输入的单个句子最相似的句子。看起来我可以用做到这一点，但我能看到的所有例子都是使用word2vec，我相信它对于查找单个相似的单词很好，但不适用于句子。我说的过程是一样的，但是把word2vec模型换成doc2vec模型，并使用搜索句子的doc2vec向量，对吗？我是否需要以任何方式使用预训练的单词嵌入，或者我是否

浏览 19提问于2020-02-19得票数 0

2回答

给定每天只有事件ID标签(字母字符串)的事件序列，什么算法可以用来检测异常值序列？

、、、、

补充问题：是否可以使用群集？我该怎么做？

浏览 0提问于2022-03-31得票数 1

回答已采纳

2回答

如何通过抓取整个网站来选择与我的句子相似的句子？

、、、、

如果我给出一个句子，如何返回所有相似的句子？面试需要多长时间？1.面试持续多长时间。该怎么做呢？我正在考虑的一种方法是爬行30到40个公司招聘网站的常见问题页面，并使用doc2vec嵌入问题，然后我会将所有类似的向量放在一个集群中。有比这更好的方法吗？

浏览 0提问于2018-05-11得票数 1

2回答

基于关键字列表- Python从文档中提取节

、、、

我是NLP新手，我想问如何根据我使用Python的关键字从文本中提取句子。我创建了一个关键字列表，用于从文档中提取句子。如果这将是一个简单的标记化问题，在这个问题中，您将通过令牌循环列表，那么我如何捕获同义词或相关的单词？我实际上实现了文本分类使用TF-以色列国防军，但与小的数据集和大量的关键字。我觉得这不管用。提前谢谢。有可能应用像word2vec这样的预先训练过的模型吗？

浏览 0提问于2018-07-27得票数 2

2回答

用于Excel模糊查询的算法

、、、

我试着用Python编写代码，使用Levenstien的距离。我遇到了公司缩写的问题，以及他们的尾随部分，比如Pvt，Ltd。我已经用Excel模糊查找运行了相同的集合，并获得了良好的结果。我有一种方法，我可以看到excel模糊查找是如何编码的，并使用python中的相同实现。

浏览 25提问于2018-09-28得票数 1

4回答

在语义相似性方面，是否有比较字符串的好的NLP？

、、、、

我用MySQL创建了一个小型数据库，其中存储了一些有关流量的数据，并根据用户与聊天机器人的交互情况，在适当的时候使用PHP脚本获取这些数据。显然，我可以从删除停止词(例如did)、命名实体(例如，公路->大街)、定义同义词和应用文本相似性度量(例如Levenshtein距离等)开始。是否有任何API可以在语义相似性方面比较字符串(甚至不需要培训)？我知道有些软件平台，如对话流，适用于这些任务，但您

浏览 0提问于2018-04-19得票数 4

1回答

还有其他有用的相似性或距离度量吗？

、、、、

定义有多少相似的两个对象是这样一个系统的基本操作。通常在计算机科学和数学中，相似性是两个物体之间距离的同义词，但我并不总是清楚在哪种应用中使用以下距离： Hamming距离用于二进制向量，例如用于测量计算机视觉和图像处理

浏览 2提问于2016-06-11得票数 0

回答已采纳

6回答

句子相似度检测的BLEU评分实现

、、、、

我需要计算BLEU分数来判断两个句子是否相似。我看过一些文章，这些文章大多是关于测量机器翻译accuracy.But的BLEU分数。我需要一个BLEU分数来找出同一个languageEnglish中句子之间的相似度。(即)(这两个句子都是英文的).Thanks in languageEnglish。

浏览 6提问于2011-03-22得票数 6

回答已采纳

1回答

哪种类型的自动编码器可以实现文本相似性？

、、

我之前没有任何在神经网络方面的工作经验，所以任何帮助都将不胜感激。我正在解决以下任务:我想找出句子对之间的相似度得分。我的想法是为句子中的每个单词生成嵌入，并将向量提供给编码器，编码器将学习将这些多个输入聚合为一个较低的表示序列向量。并使用该序列向量之间的余弦相似度来找出相似度得分。

浏览 3提问于2019-11-25得票数 0

4回答

最近发现两个短句或文章之间的语义相似性的方法(在概念层面上)

、、、、

我正在努力寻找短句和文章之间的相似之处。我使用了许多现有的方法，如tf-idf，word2vec等，但结果还不错。我发现的最相关的度量是单词移动距离，然而，它的结果并不比其他度量好。我知道这是一个具有挑战性的问题，然而，我想知道是否有任何新方法可以在更高或更高的概念级别上找到近似相似性，而不仅仅是匹配单词。特别是，有没有其他的新方法，比如单词移动距离，它着眼于句子或文章的稍微高一点的语义？

浏览 1提问于2017-07-07得票数 0

2回答

Python中字符串的相似性度量

、、

我想测量两个词之间的相似性。这样做的目的是用OCR读取文本，并检查结果中的关键字。我正在寻找的函数应该比较两个单词并以%返回相似度。因此，将一个词与其本身进行比较应该是100%相似的。我自己编写了一个函数，然后逐字符进行比较，并返回匹配数与长度之比。但问题是0.66 wordComp('tackoverflow','stackove

浏览 0提问于2018-11-29得票数 4

回答已采纳

点击加载更多