首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

反反爬虫技术提升,Python爬虫遇到验证码的解决思路

一  点睛

1 举例

中国知网的注册页面使用的是这种验证码,页面如下:

很多人学习python,不知道从何学起。

很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手。

很多已经做案例的人,却不知道如何去学习更加高深的知识。

那么针对这三类人,我给大家提供一个好的学习平台,免费领取视频教程,电子书籍,以及课程的源代码!??¤

二 准备工作

1 目标

以知网的验证码为例,利用OCR(Optical Character Recognition 光学字符识别)技术识别图形验证码。

2 安装tesseract

2.2 下载tesseract-ocr-setup-3.05.01.exe

2.3 安装注意事项

勾选Additional language data(download)选项,这样可以识别多国语言。

3 安装tesserocr

安装好的Tesseract-OCR后,从D:\Program Files (x86)\Tesseract-OCR目录下,将tessdata文件夹拷贝到下面目录

E:\WebSpider\venv\Scripts

4 获取验证码

将验证码图形 保存到本地,命名为code.jpg

三 实战

1 实战1

1.1 代码

1.2 效果

1.3 说明

code.jpg是DTKT

code1.jpg是JR42

code2.jpg是PFRT

将结果和实际图片进行比较,正确率还是比较高的。

2 实战2

2.1 代码

2.2 效果

2.3 说明

code.jpg是DTKT

code1.jpg是JR42

code2.jpg是PFRT

将结果和实际图片进行比较,正确率并不是很高。

3 实战3

3.1 代码

3.2 效果

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20201024A06NG400?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券