Loading [MathJax]/jax/input/TeX/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Python模糊匹配 | 刷英语六级段落匹配只需要3秒?

Python模糊匹配 | 刷英语六级段落匹配只需要3秒?

作者头像
叶庭云
发布于 2021-12-30 13:15:27
发布于 2021-12-30 13:15:27
1.1K00
代码可运行
举报
文章被收录于专栏:Python进阶之路Python进阶之路
运行总次数:0
代码可运行

一、前言

一年二度的四六级考试就此落下帷幕,本次考试体验感极强,反手就是一个 “五星好评”

星光不负赶路人,时光不负有心人,想要轻松通过四六级。还得是脚踏实地,一步一个脚印,做好充足的复习准备。预祝大家无论是期末考还是四六级,都能取得理想的成绩,然后回家过个好年~~

本文利用 Python 的模糊匹配方法来刷英语六级段落匹配,仅需要3秒!Python的 FuzzyWuzzy 库,是一个易用而又强大的模糊字符串匹配工具包。它依据 Levenshtein Distance 算法,计算两个序列之间的差异。Levenshtein Distance算法,又叫 Edit Distance 算法,是指两个字符串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。一般来说,编辑距离越小,两个串的相似度越大。

Github传送门:https://github.com/seatgeek/fuzzywuzzy

后面的编程都是在 jupyter notebook 中,安装 FuzzyWuzzy 库如下所示:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
pip install fuzzywuzzy -i http://pypi.douban.com/simple --trusted-host pypi.douban.com

原文链接:https://yetingyun.blog.csdn.net/article/details/122022033

未经作者允许,禁止转载,更勿做其他用途,违者必究。

二、fuzz模块

导入方法,直接导入这个模块的话,系统会提示UserWarning,这不代表报错,程序依旧可以运行(使用的默认算法,执行速度较慢),可以按照系统的提示安装 python-Levenshtein 库进行辅助,这有利于提高计算的速度。

1. 简单匹配

这个其实不怎么精确,也不常用,测试如下:

2. 部分匹配(Partial Ratio)

尽量使用部分匹配,精度较高!测试如下:

可以发现,fuzz.partial_ratio(S1, S2)部分匹配,如果 S2 是 S1 的子串依然返回100

3. 忽略顺序匹配(Token Sort Ratio)

原理:以 空格 为分隔符,小写化所有字母,无视空格外的其它标点符号,测试如下:

fuzz.token_sort_ratio(S1,S2)比较S1,S2单词是否相同,不考虑词语之间的顺序。

4. 去重子集匹配(Token Set Ratio)

相当于比对之前有一个集合去重的过程,注意最后两个,可理解为该方法是在 token_sort_ratio 方法的基础上添加了集合去重的功能,下面三个匹配的都是倒序。

fuzz的这几个 ratio 函数最后得到的结果都是匹配数值,如果需要获得匹配度最高的字符串结果,还需要依旧自己的数据类型选择不同的函数,然后再进行结果提取,如果但看文本数据的匹配程度使用这种方式是可以量化的,但是对于我们要提取匹配的结果来说就不是很方便了,因此就有了 process 模块。

三、process模块

用于处理备选答案有限的情况,返回模糊匹配的字符串和相似度。测试如下:

四、实践

实践当然就是利用 fuzz 模块来刷英语六级段落匹配,看看结果怎么样!!

知乎找到一个网址可以下载六级真题PDF:https://pan.uvooc.com/Learn/CET/

它的 PDF 直接编辑不了,貌似是扫描的。这里我们用 Adobe Acrobat Pro DC 识别后,将阅读材料和要匹配的选项直接复制粘贴到 txt 里面。

顺便说一下:利用 Adobe Acrobat Pro DC 裁剪页面提取 PDF 里的矢量图保存下来,图像放大不会失真,你直接截图的话,放大肯定会失真的。

读取 txt 数据:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
with open("Englishreading.txt", "r", encoding="utf-8") as f1:
    con1 = f1.read().split("\n")
dic1 = {}
for i in con1:
    data = i.split(":")
    dic1[data[0]] = data[1]

print(dic1)
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
with open("match.txt", "r") as f2:
    con2 = f2.read().split("\n")

dic2 = {}
for i in con2:
    data = i.split(":")
    dic2[data[0]] = data[1]
print(dic2)

先简单测试一个,比如一个是匹配F,如下所示:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
test_str = "Marconi was central to our present-day understanding of communication."
# test_str = "As an adult, Marconi had an intuition that he had to be loyal to politicians in order to be influential."
big_lst = []
for k, v in dic1.items():
    sentence = [x.strip(" ") for x in v.split(".")]
    scores = []
    for a in sentence:
        score = fuzz.partial_ratio(a, test_str)
        scores.append(score)
    # print(scores, sum(scores), round(sum(scores) / len(scores), 2))
    k_score = sum(scores) * 0.2 + sum(scores) / len(scores)
    big_lst.append((k, scores, round(k_score, 2)))

results = sorted(big_lst, key=lambda x: x[2], reverse=True)
print(results)
print(results[0][0])

得到答案也是 F,俺们的算法做对了!最后刷英语六级段落匹配(10个题),结果如下:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# -*- coding: UTF-8 -*-
"""
@Author  : 叶庭云
@CSDN    : https://yetingyun.blog.csdn.net/
"""
answers = []
for idx, ans in dic2.items():
    big_lst = []
    for k, v in dic1.items():
        sentence = [x.strip(" ") for x in v.split(".")]
        scores = []
        for a in sentence:
            # score = fuzz.token_sort_ratio(a, ans)
            score = fuzz.partial_ratio(a, ans)
            if score > 30:
                scores.append(score)
        scores.sort()
        if len(scores) >= 2:
            max_ = max(scores) + scores[-2]
        else:
            max_ = max(scores)
        big_lst.append((k, max_, scores))
    results = sorted(big_lst, key=lambda x: x[1], reverse=True)
    print(results)
    print("-" * 66)
    answers.append(results[0][0])


print("answer:", answers)

本文利用 Python 的模糊匹配方法来刷英语六级段落匹配,仅需要3秒!(还是在打印了中间结果的情况下),选取的是 2021 年 6 月英语六级真题(卷一)来进行测试,昨天刚考的六级,网上还没有找到能用的真题PDF。感兴趣的读者后面可以自行动手实践呀,看看能对多少个。不会吧不会吧,不会有人六级错两个以上吧🚀🚀

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2021/12/19 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
java中json字符串和java对象的转换「建议收藏」
根目录下创建lib目录,将解析器文件放在lib目录下,并对lib右键选择add as library产生依赖
全栈程序员站长
2022/10/05
3.7K0
java中json字符串和java对象的转换「建议收藏」
字符串转json对象 java_js中对象转字符串的方法
普通转换(String jsonStr = “{“username”:“张三”,“password”:“123456”}”;)
全栈程序员站长
2022/10/01
18.4K0
字符串转json对象 java_js中对象转字符串的方法
Kotlin入门(5)字符串及其格式化
上一篇文章介绍了数组的声明和操作,包括字符串数组的用法。注意到Kotlin的字符串类也叫String,那么String在Java和Kotlin中的用法有哪些差异呢?这便是本文所要阐述的内容了。   首先要说明的是String类型与基本变量类型之间的转换方式,在《Kotlin入门(3)基本变量类型的用法》中,提到基本变量类型可以通过toString方法转为字符串类型。反过来,字符串类型又该如何转为基本变量类型?如果使用Java编码,有以下几种转换方式: 字符串转整型:调用方法Integer.parseInt(***) 字符串转长整型:调用方法Long.parseLong(***) 字符串转浮点数:调用方法Float.parseFloat(***) 字符串转双精度数:调用方法Double.parseDouble(***) 字符串转布尔型:调用方法Boolean.parseBoolean(***) 字符串转字符数组:调用String对象的toCharArray方法   就上面的转换情况来看,Java的实现方式比较繁琐,既需要其它类型的类名,有需要其它类型的转换方法。而在Kotlin这边,转换类型相对简单,并且与基本变量类型之间的转换保持一致,具体说明如下: 字符串转整型:调用String对象的toInt方法 字符串转长整型:调用String对象的toLong方法 字符串转浮点数:调用String对象的toFloat方法 字符串转双精度数:调用String对象的toDouble方法 字符串转布尔型:调用String对象的toBoolean方法 字符串转字符数组:调用String对象的toCharArray方法 显而易见,Kotlin对字符串的类型转换更友好,也更方便记忆。 当然,转换类型只是字符串的基本用法,还有更多处理字符串的其他用法,比如查找子串、替换子串、截取指定位置的子串、按特定字符分隔子串等等,在这方面Kotlin基本兼容Java的相关方法。对于查找子串的操作,二者都调用indexOf方法;对于截取指定位置子串的操作,二者都调用substring方法;对于替换子串的操作,二者都调用replace方法;对于按特定字符分隔子串的操作,二者都调用split方法。 下面是Kotlin使用indexOf和substring方法的代码例子:
aqi00
2019/01/18
2K0
C++ 字符串操作函数
由于字符串使用广泛,C和C++提供了一些字符串函数,包括字符串连接函数strcat,字符串复制函数strcpy,字符串比较函数strcmp,字符串长度函数strlen,在C语言中被定义在string.h中定义。在C++中被定义在cstring和string中。
chaibubble
2019/05/26
2.7K0
蓝桥杯省赛基础知识点 | 简单字符串处理
简单字符串题目,也就是不涉及复杂字符串算法的简单题。在蓝桥杯省赛中很常见,几乎每届都有。
张哥编程
2024/12/13
1930
php用空格分隔字符串,分割字符串空格[通俗易懂]
String[] data = s.split(“@”); // 以@分割字符串,获得@后的值。
全栈程序员站长
2022/11/16
6.6K0
令人头大的字符串—算法处理
字符串可以看成是字符组成的数组。由于字符串是程序里经常需要处理的数据类型,因此有很多针对字符串处理的题目,以下是一些常见的类型。
Wu_Candy
2022/07/04
2100
令人头大的字符串—算法处理
NO.3 Shell脚本
程序在执行之前需要一个专门的编译过程,把程序编译成 为机器语言文件,运行时不需要重新翻译,直接使用编译的结果就行了。程序执行效率高,依赖编译器,跨平台性差些。如C、C++
py3study
2020/01/10
9120
C语言中常用的6个字符串处理函数
功能:把源字符串数组中的字符串复制到目的字符串数组中,字符串结束标志"\0"也一同复制
C语言中文社区
2022/05/30
8190
C语言中常用的6个字符串处理函数
Linux用户管理
用户管理 添加用户 useradd或者adduser。其实adduser是useradd的一个软连接。以useradd为例,其用法为 useradd  [option]  USERNAME [root@compute ~]# ll `which adduser` lrwxrwxrwx. 1 root root 7 5月 26 14:21 /usr/sbin/adduser -> useradd -u  指定新添加用户的UID,不过根据规定,普通用户的UID必须大于499且不能和已存在的UID重复。 [ro
人生不如戏
2018/05/30
3.6K0
【重拾C语言】六、批量数据组织(三)数组初值;字符串、字符数组、字符串数组;类型定义 typedef
本文介绍了C语言:数组初值;字符串、字符数组、字符串数组;类型定义 typedef
Qomolangma
2024/07/30
1330
【重拾C语言】六、批量数据组织(三)数组初值;字符串、字符数组、字符串数组;类型定义 typedef
Shell笔记4:shell编程,字符串处理与正则表达式
1.字符串处理 a.子串截取 方法1:${var:起始位置:长度},编号从0开始,可省略 方法2:expr substr expr substr "$var" 起始位置 长度 编号从1开始 方法3:使用cut工具 echo $var |cut -b 起始位置-结束位置 编号从1开始
陪你听风
2021/03/31
6900
江哥带你玩转C语言| 12 -二维数组和字符串
如果觉得文章对你有帮助,点赞、收藏、关注、评论,一键四连支持,你的支持就是江哥持续更新的动力。
极客江南
2021/07/11
1.5K0
Java开发知识之Java字符串类
  任何语言中.字符串都是很重要的.都涉及到字符串的处理. 例如C++中. 字符串使用内存. 并提供相应的函数进行处理 strcmp strcat strcpy....等等
IBinary
2019/05/25
4530
shell 快速入门
变量 #!/bin/bash # 变量 echo "01_变量.sh" # 变量定义与赋值,等号两边不能用空格分开 name=hahahaha echo $name echo 也使用 {} 输出为 ${name} # 一些特殊变量 test_func() { echo "function name is $FUNCNAME" } test_func echo $HOSTNAME echo $HOSTTYPE echo $MATCHTYPE echo $LANG echo $PWD # echo $
祥祥
2021/01/08
2K0
Avro介绍[通俗易懂]
1.丰富的数据结构 2.使用快速的压缩二进制数据格式 3.提供容器文件用于持久化数据 4.远程过程调用RPC 5.简单的动态语言结合功能,Avro 和动态语言结合后,读写数据文件和使用 RPC 协议都不需要生成代码,而代码生成作为一种可选的优化只值得在静态类型语言中实现。
全栈程序员站长
2022/11/15
2.5K0
C语言中字符数组只能存放字符串?字符数组和字符串的唯一区别?
字符数组本意就是是指用来存放字符数据的数组。字符数组的元素是字符类型的。字符数组用于存放字符或字符串。
Twcat_tree
2022/11/30
8740
C++ 字符串类,字符串变量与字符串数组
在C语言中,应用字符串需要定义字符数组,字符串需要存放在字符数组中。然后利用各种字符串操作函数对其操作。 http://blog.csdn.net/chaipp0607/article/details/56676791
chaibubble
2022/05/07
6130
【JavaSE专栏38】Java常用类 String 解析,字符串的花式操作
本文讲解了 Java 中常用类 String 的语法、使用说明和应用场景,并给出了样例代码。
Designer 小郑
2023/08/02
2840
【JavaSE专栏38】Java常用类 String 解析,字符串的花式操作
字符串操作
字符串处理函数在Excel VBA中使用频率非常的高,很多函数都非常的好理解,只要多使用一般都可以掌握。
xyj
2020/07/28
1K0
字符串操作
相关推荐
java中json字符串和java对象的转换「建议收藏」
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验