Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >文本模糊匹配

文本模糊匹配

作者头像
爱编程的小明
发布于 2022-09-06 06:25:31
发布于 2022-09-06 06:25:31
2.4K02
代码可运行
举报
文章被收录于专栏:小明的博客小明的博客
运行总次数:2
代码可运行

文本模糊匹配主要是指对两段文本含义相近程度的计算,当我们需要处理的数据集比较多样或者是未标准化的脏数据时,通过模糊匹配主要实现的是去除重复值的操作。 高级的模糊匹配涉及到的是自然语言处理的一部分内容,这里所说的模糊匹配则是一种相对比较简单的匹配方式,例如两个相近的表达方式(‘underground’ ‘subway’),一些可能出现的拼写错误和较小的语法错误或句法偏移(‘apple’ ‘appel’)以及一些并列词语位置的颠倒之类的等等一些不会涉及到语义分析的一些内容。

Python中的fuzzywuzzy库为我们提供了上述所说的功能,这个库中有几种方法:

  • fuzz.ratio(str1,str2):返回两个字符串的差异主要是一些拼写错误导致的可能(返回值为1-100)
  • fuzz.partial_ratio(str1,str2):返回两个字符串表达相同含义可能(返回值1-100),这种方法会对子字符串进行一个匹配,也可以对一些意思相近的词语进行一个更好的识别
  • token_sort_ratio:匹配时不考虑单词顺序
  • process :有限选项中部分数据杂乱的匹配效果比较好

实际应用过程中选用哪种方法需要视情况而定,对于一些表述上有微小差别意思却有巨大差别的数据(‘does’,‘doesn’t’),使用第一种方法进行匹配会得到相对比较低的得分,这也是我们需要注意的。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
fuzz.ratio('小明','小明的女朋友')
# 50
fuzz.partial_ratio('小明','小明的女朋友')
# 100
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2022-07-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
NLP教程:用Fuzzywuzzy进行字符串模糊匹配
在计算机科学中,字符串模糊匹配( fuzzy string matching)是一种近似地(而不是精确地)查找与模式匹配的字符串的技术。换句话说,字符串模糊匹配是一种搜索,即使用户拼错单词或只输入部分单词进行搜索,也能够找到匹配项。因此,它也被称为字符串近似匹配。
AiTechYun
2018/11/08
5.5K0
Python算法模糊匹配:FuzzyWuzzy深度剖析,从入门到精通,解决你所有需要匹配的需求
在数据科学与机器学习的广阔领域中,处理不精确或模糊的数据是一项至关重要的技能。想象一下,当你面对的是一堆拼写错误、缩写、或是格式不一的文本数据时,如何高效地从中提取有价值的信息?这正是FuzzyWuzzy——Python中一个强大的模糊字符串匹配库,能够大展身手的地方。
小白的大数据之旅
2024/11/20
1.1K0
Python算法模糊匹配:FuzzyWuzzy深度剖析,从入门到精通,解决你所有需要匹配的需求
python实现字符串模糊匹配
之前笔者写过一篇文章关于如何做搜索,但那篇文章的角度是从文本相似度角度写的。那种方式是目前发展的趋势,但是真正的搜索特别是网页搜索不可能在大范围的文本之间两两算相似度的。那样搜索引擎的效率会变得特别低下。本文将从字符串模糊匹配的角度介绍一下搜索引擎。 一般的搜索,要分为两个步骤:搜索和排序。搜索的方法有很多,为了高效一般进行字符串或关键词匹配,而用户提供的一些关键词可能不是数据库中保存的,例如使用倒排的方法很难找到Head节点,此处需要使用模糊匹配的方式。这里简单列举一下Learning-to-Rank排序
CodeInHand
2018/04/08
22.9K0
python实现字符串模糊匹配
FuzzyWuzzy:Python中模糊匹配的魔法库
在日常开发工作中,经常会遇到这样的一个问题:要对数据中的某个字段进行匹配,但这个字段有可能会有微小的差异。比如同样是招聘岗位的数据,里面省份一栏有的写“广西”,有的写“广西壮族自治区”,甚至还有写“广西省”……为此不得不增加许多代码来处理这些情况。
可以叫我才哥
2022/06/06
3.9K0
FuzzyWuzzy:Python中模糊匹配的魔法库
Python中匹配模糊的字符串
如何使用thefuzz 库,它允许我们在python中进行模糊字符串匹配。此外,我们将学习如何使用process 模块,该模块允许我们在模糊字符串逻辑的帮助下有效地匹配或提取字符串。
Python学习者
2023/10/09
8140
Python模糊匹配 | 刷英语六级段落匹配只需要3秒?
星光不负赶路人,时光不负有心人,想要轻松通过四六级。还得是脚踏实地,一步一个脚印,做好充足的复习准备。预祝大家无论是期末考还是四六级,都能取得理想的成绩,然后回家过个好年~~
叶庭云
2021/12/30
1.1K0
Python模糊匹配 | 刷英语六级段落匹配只需要3秒?
字段匹配工具----python编写
FuzzyWuzzy是一个基于Levenshtein Distance算法的模糊字符串匹配工具包。该算法计算两个序列之间的差异,即从一个字符串转换到另一个字符串所需的最少编辑操作次数。编辑操作可以是替换、插入或删除字符。编辑距离越小,两个字符串的相似度越大。
cultureSun
2023/10/18
8330
Rapidfuzz:快速而准确的字符串匹配
Rapidfuzz 是为了满足现代数据处理中对于字符串匹配速度和准确性的双重需求而生的。 当我们提到字符串匹配,可能脑海中首先浮现的是正则表达式或者是传统的字符串比对方法。 然而,这些方法在处理模糊匹配上显得力不从心。 在模糊匹配的王国里,Levenshtein 和fuzzywuzzy 曾称霸一方,但是随着 Rapidfuzz 的出现,它们的宝座开始摇摇欲坠。 Rapidfuzz 以其背后的 C++强力驱动,其执行效率大大超越了它的前辈们。 它不仅速度更快,性能更优,而且依赖更少,为开发者节约了大量的时间与精力。
luckpunk
2025/01/18
2030
FuzzyWuzzy:简单易用的字符串模糊匹配工具
FuzzyWuzzy 是一个简单易用的模糊字符串匹配工具包。它依据Levenshtein Distance 算法计算两个序列之间的差异。
week
2019/08/29
1.4K0
模糊搜索:在不确定性中寻找精确结果
在我们日常生活和工作中,搜索功能无处不在。无论是在网页搜索、文件检索,还是数据库查询中,我们时常会因为拼写错误或信息不完整而无法找到需要的结果。模糊搜索(Fuzzy Search)应运而生,它通过识别与查询相似的词语来帮助我们获得更加灵活的搜索结果。本文将详细探讨模糊搜索的背景、原理、实现方式以及应用领域,帮助读者更深入理解这一基础且实用的技术。
watermelo37
2025/01/22
2650
模糊搜索:在不确定性中寻找精确结果
基于TF-IDF和KNN的模糊字符串匹配优化
模糊字符串匹配(Fuzzy string matching)是一种查找近似模式(而不是完全匹配)的技术。换句话说,模糊字符串匹配是一种搜索类型,即使用户拼错单词或仅输入部分单词进行搜索,也会找到匹配项。也称为近似字符串匹配(approximate string matching)。
flavorfan
2021/04/30
2.1K0
基于TF-IDF和KNN的模糊字符串匹配优化
计算两个字符串相(或句子)似度的方法1 编辑距离2 余弦相似度3 FuzzyWuzzy
主要方法有:编辑距离、余弦相似度、模糊相似度百分比 1 编辑距离 编辑距离(Levenshtein距离)详解(附python实现) 使用Python计算文本相似性之编辑距离 def levenshtein(first, second): ''' 编辑距离算法(LevD) Args: 两个字符串 returns: 两个字符串的编辑距离 int ''' if len(first) > len(second):
致Great
2018/06/20
3.7K0
非常实用的 Python 库,推一次火一次!
Python 是一个很棒的语言。它是世界上发展最快的编程语言之一。它一次又一次地证明了在开发人员职位中和跨行业的数据科学职位中的实用性。整个 Python 及其库的生态系统使它成为全世界用户(初学者和高级用户)的合适选择。它的成功和流行的原因之一是它强大的第三方库的集合,这些库使它可以保持活力和高效。
码农向前冲
2022/01/11
4330
非常实用的 Python 库,推一次火一次!
使用word2vec和xgboost寻找Quora上的相似问题
Changing the world, one article at a time. Sr. Data Scientist, Toronto Canada. Opinion=my own.
机器学习之禅
2022/07/11
5280
使用word2vec和xgboost寻找Quora上的相似问题
Python数据科学“冷门”库
Python是一门神奇的语言。事实上,它是世界上发展最快的编程语言之一。它已经一次又一次地证明了它在跨行业的开发人员职位和数据科学职位上的实用性。Python的整个生态系统及其库使其成为全世界用户(初学者和高级用户)的最佳选择。它的成功和流行的原因之一是它的健壮库集的存在,这些库使它能够做到非常动态和快速。
AI研习社
2019/07/30
1.2K0
Python数据科学“冷门”库
SQLite3+logging+PyQt5+fuzzywuzzy 日志数据库高亮/等级筛选/模糊查询/时间范围筛选 | python
PythonSci代码 来自 https://blog.csdn.net/hwd00001/article/details/103049588 QLoggingTableWidget代码 来自 UI
zmh-program
2023/02/06
9840
这些Python库真的很“冷”,但是却很强大
Python是一种很棒的编程语言。事实上,它还是世界上发展最快的编程语言之一。它一次又一次证明了它在数据科学职位中的实用性。整个Python及其库的生态系统使其成为全世界用户(初学者和高级)的合适选择。
Criss@陈磊
2019/08/02
7340
让你事半功倍的小众 Python 库,是不是很惊喜!
Python 成功和受欢迎的原因之一是存在强大的库,这些库使 Python 极具创造力且运行快速。然而,使用 Pandas、Scikit-learn、Matplotlib 等常见库在解决一些特殊的数据问题时可能并不实用,本文介绍的这些非常见库可能更有帮助。
昱良
2019/06/03
1.1K0
这几个冷门却实用的 Python 库,我爱了!
Python 是一个很棒的语言。它是世界上发展最快的编程语言之一。它一次又一次地证明了在开发人员职位中和跨行业的数据科学职位中的实用性。整个 Python 及其库的生态系统使它成为全世界用户(初学者和高级用户)的合适选择。它的成功和流行的原因之一是它强大的第三方库的集合,这些库使它可以保持活力和高效。
GitHubDaily
2020/04/02
8450
这几个冷门却实用的 Python 库,我爱了!
资源 | 让你事半功倍的小众Python库
Python 是世界上发展最快的编程语言之一。它一次又一次地证明了自己在开发人员和跨行业的数据科学中的实用性。Python 及其机器学习库的整个生态系统使全世界的用户(无论新手或老手)都愿意选择它。Python 成功和受欢迎的原因之一是存在强大的库,这些库使 Python 极具创造力且运行快速。然而,使用 Pandas、Scikit-learn、Matplotlib 等常见库在解决一些特殊的数据问题时可能并不实用,本文介绍的这些非常见库可能更有帮助。
昱良
2018/12/14
5940
推荐阅读
相关推荐
NLP教程:用Fuzzywuzzy进行字符串模糊匹配
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档