前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >学会这个Python库,爬虫至少能减少100行代码

学会这个Python库,爬虫至少能减少100行代码

作者头像
润森
发布于 2022-09-22 07:18:16
发布于 2022-09-22 07:18:16
31000
代码可运行
举报
文章被收录于专栏:毛利学Python毛利学Python
运行总次数:0
代码可运行

学会这个Python库,爬虫至少能减少100行代码

写在前面

“今天打算写爬虫系列的文章,浏览过程中到达了知乎,看到了很多健身妹子,恩,身材很好,心中灵光一闪就想爬下来,存档。作为一个勉强算是爬虫已经入门的小菜来说,这个简单的不行,一顿操作之后,发现卡在了知乎登录上,原计划自己写个模拟登录,后来一琢磨,不想造轮子了,去github上找一个现成的不香吗? ”

于是乎,有了这篇文章

DecryptLogin库

项目源码:https://github.com/CharlesPikachu/DecryptLogin

该项目就是用来实现各种登录的一个库,并且项目的声明非常有那味儿

“项目声明 本项目仅供python爱好者学习使用, 若作者发现该项目以任何不正当方式被使用, 将立即删除该项目。希望大家合理利用该项目🙂 ”

恩,这个项目是给爱好者用的,如果你干坏事,我就删掉这个项目,非常nice。

一个库好不好,记得咱们怎么判断么,看他的文档写的好不好,文档好,库一般不会差

中文文档:https://httpsgithubcomcharlespikachudecryptlogin.readthedocs.io/zh/latest/index.html

打开看一下,发现支持的平台还不少,并且这个库在3天前还在更新(今天是2020年6月19日),证明库还是在维护中的。

编码时间

具体的细节不在赘述,这个库能跑起来是基本前提,走起

“pip install DecryptLogin --upgrade ”

安装过程,不报错,错了就咋办,切换源,当然这个库需要的Python3.6以上版本

“DecryptLogin相关依赖包需求如下: rsa >= 4.0 qrcode >= 6.1 pillow >= 6.0.0 requests >= 2.22.0 pycryptodome >= 3.8.1 requests_toolbelt >= 0.9.1 PyExecJS >= 1.5.1 (测试时使用的Node.js版本为v10.15.3) ”

接下来就可以快速开始了,官方文档给的也非常简单

三行代码实现模拟登录

这个标题,隐隐中有我一行代码称为女神同桌的内涵:https://blog.csdn.net/hihell/article/details/106566330

三行代码之后,就那么猝不及防的成功了,当然过程里面我还输入了一个验证码

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
from DecryptLogin import login

lg = login.Login()
infos_return, session = lg.zhihu(username='你的账号', password="你的密码")

print(infos_return,session)

更妙的是,验证码处理还可以支持 打码平台对接,这个已经比较完善了,对于我们刚开始的模拟登录的目标已经足够用了

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
from DecryptLogin import login

'''定义验证码识别函数'''
def crackvcFunc(imagepath):
    # 打开验证码图片
    img = Image.open(imagepath)
    # 识别验证码图片
    result = IdentifyAPI(img)
    # 返回识别结果(知乎为数字验证码)
    return result

lg = login.Login()
infos_return, session = lg.zhihu(username='Your Username', password='Your Password', crackvcFunc=crackvcFunc)

写在后面

如果你不想造轮子了,直接用该开源项目是可以的,当然打开他的源码,好好分析一下,临摹一下,还是能学到非常多的东西,而临摹在学习初期是最好,也是最有效的学习方式

“很多时候,我们无法解决技术问题,不是因为我们技术不行,而是因为我们不知道怎么才行 ”

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-01-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 小刘IT教程 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Python+Selenium爬虫:豆瓣登录反反爬策略解析
1. 引言 在当今互联网时代,数据抓取(爬虫)技术广泛应用于数据分析、市场调研、自动化测试等领域。然而,许多网站采用动态加载技术(如Ajax、React、Vue.js等框架)来渲染页面,传统的requests库无法直接获取动态生成的内容。这时,Selenium成为解决动态页面爬取的重要工具。 豆瓣作为一个典型的动态加载网站,其登录页面涉及表单提交、动态验证码、Ajax请求等复杂交互。本文将通过Python + Selenium,详细介绍如何模拟登录豆瓣,并处理动态加载的登录页面。
小白学大数据
2025/05/14
1770
推荐一个大佬开发的爬虫库,支持某宝、某乎等数十个主流平台解密登录
跟很多Python爱好者一样,笔者初学Python时也是从爬虫入门,并一度玩的不亦乐乎,源于其简单易上手的低门槛,也源于其所见即所得的即时获得感。与此同时,熟悉Python爬虫的也一定有过大量的反爬与反反爬的斗争经历,轻则ip封禁一段时间,重则也可能是面向JianYu编程。所以,在遭受到不断爬虫的打击以及认识到这个事情本身的严肃性之后,笔者就只是偶尔玩玩而已,不再执泥于其中了。
luanhz
2021/06/24
6470
Python爬虫之模拟登录京东商城
首先感谢大家的大力支持,博主会持续更新精彩文章,分享更多技术干货。另外,最近在新建的QQ群中结识了一些朋友,气氛很好,大家互相分享技术内容,博主也从中收获了不少,感谢大家,也欢迎更多的小伙伴儿的加入(二维码可点击公众号技术交流获取)。
Python数据科学
2018/08/06
3K0
Python爬虫之模拟登录京东商城
Python爬虫之模拟登录拉勾网
模拟登录想必大家已经熟悉了,之前也分享过关于模拟登录wechat和京东的实战,链接如下:
Python数据科学
2018/08/06
1.1K0
Python爬虫之模拟登录拉勾网
Python爬虫:模拟登录知乎完全详解
專 欄 ❈ sunhaiyu,Python中文社区专栏作者 专栏地址: http://www.jianshu.com/u/4943cb2c6ea4 ❈ 这几天在研究模拟登录, 以知乎 - 与世界分享你的知识、经验和见解为例。实现过程遇到不少疑问,借鉴了知乎xchaoinfo的代码,万分感激! 知乎登录分为邮箱登录和手机登录两种方式,通过浏览器的开发者工具查看,我们通过不同方式登录时,网址是不一样的。邮箱登录的地址email_url = 'https://www.zhihu.com/login/email'
Python中文社区
2018/01/31
2.4K0
Python爬虫:模拟登录知乎完全详解
轻松抓取:用 requests 库处理企业招聘信息中的联系方式
Boss直聘是中国领先的招聘平台,许多求职者和企业通过该平台进行快速的职位匹配和联系。然而,Boss直聘上的企业招聘信息,尤其是联系方式,通常需要登录验证或通过特殊的权限才能获取。本文将介绍如何使用Python中的requests库,结合代理IP技术,模拟登录Boss直聘并抓取企业招聘信息中的联系方式。
jackcode
2024/10/16
1850
轻松抓取:用 requests 库处理企业招聘信息中的联系方式
【爬虫】(四)西电研究生教务系统技术文档
关于教务系统的一系列爬取工作已经初步完成,Holi爬虫组的工作也算正式进入优化阶段。 我们需要根据后台组的需要,转换成CVS或数据库形式。需要和后台组进行商量。
一点儿也不潇洒
2018/08/07
1.5K0
【爬虫】(四)西电研究生教务系统技术文档
GitHub 热门:各大网站的 Python 爬虫登录汇总
项目地址:https://github.com/CriseLYJ/awesome-python-login-model
昱良
2019/07/04
1.2K0
哪吒票房超复联4,100行python代码抓取豆瓣短评,看看网友怎么说
这次是用python登录并爬取豆瓣短评,并做词云分布,分别用到requests、xpath、lxml、jieba、wordcloud等python库。
Python进阶者
2019/09/24
5760
哪吒票房超复联4,100行python代码抓取豆瓣短评,看看网友怎么说
不要再自己画冰墩墩了,用Python抢一个不香吗
最近冬奥会吉祥物冰墩墩火的离谱,以至于各大电商平台都被抢购一空,现在到淘宝的奥林匹克官方旗舰店里,发现冰墩墩已经下架不买了,真的是。。。只有一些非官方的店在售卖,也不知道货是真的还是假的~不过 anyway,先抢起来再说,就是一个卷!
周萝卜
2022/04/06
4060
不要再自己画冰墩墩了,用Python抢一个不香吗
Python | Python爬虫爬取知乎小结
http://blog.csdn.net/qq_37267015/article/details/62217899
用户1634449
2018/11/08
1.4K0
Python爬虫从入门到放弃(二十四)之 Scrapy登录知乎
因为现在很多网站为了限制爬虫,设置了为只有登录才能看更多的内容,不登录只能看到部分内容,这也是一种反爬虫的手段,所以这个文章通过模拟登录知乎来作为例子,演示如何通过scrapy登录知乎 在通过scra
coders
2018/01/04
1.5K0
Python爬虫从入门到放弃(二十四)之 Scrapy登录知乎
深入探索 Python 爬虫:高级技术与实战应用
Python 爬虫是一种强大的数据采集工具,它可以帮助我们从互联网上自动获取大量有价值的信息。在这篇文章中,我们将深入探讨 Python 爬虫的高级技术,包括并发处理、反爬虫策略应对、数据存储与处理等方面。通过实际的代码示例和详细的解释,读者将能够掌握更高级的爬虫技巧,提升爬虫的效率和稳定性。
用户10354340
2024/10/04
2610
Python爬虫模拟登录并跳过二次验证
模拟登录是指通过程序模拟用户在浏览器中的登录操作,向服务器发送登录请求,获取登录后的会话信息(如Cookie)。这通常涉及发送用户名、密码等登录凭证,并处理服务器返回的响应。
小白学大数据
2025/03/31
3020
没有爬过这些网站别说你会爬虫!
网络上有形形色色的网站,不同类型的网站爬虫策略不同,难易程度也不一样。从是否需要登陆这方面来说,一些简单网站不需要登陆就可以爬,比如之前爬过的猫眼电影、东方财富网等。有一些网站需要先登陆才能爬,比如知乎、微信等。这类网站在模拟登陆时需要处理验证码、js 加密参数这些问题,爬取难度会大很多。费很大力气登陆进去后才能爬取想要的内容,很花时间。
龙哥
2019/04/25
1.3K0
没有爬过这些网站别说你会爬虫!
那些有趣好玩强大的Python库
Python 语言向来以丰富的第三方库而闻名,今天来介绍几个非常nice的库,有趣好玩且强大!
周萝卜
2023/08/21
5420
那些有趣好玩强大的Python库
用爬虫解决问题
爬虫,作为一种自动化数据抓取工具,在信息收集、数据分析、市场调研等领域发挥着重要作用。然而,随着网站反爬技术的不断升级,爬虫开发也面临着诸多挑战。本文旨在深入浅出地介绍爬虫技术的基础、常见问题、易错点及其规避策略,并通过代码示例加以说明,帮助初学者和进阶开发者更好地利用爬虫解决问题。
Jimaks
2024/05/12
2590
Selenium库详解:Python实现模拟登录与反爬限制的进阶指南
Selenium是一个开源的自动化测试框架,广泛应用于Web自动化测试和爬虫开发。它支持多种编程语言(如Python、Java、C#等)和主流浏览器(如Chrome、Firefox、Safari等)。通过Selenium,开发者可以模拟用户的各种操作,例如点击按钮、填写表单、滚动页面等,从而实现对网页的自动化控制。
小白学大数据
2025/02/21
2250
Python模拟登陆新版知乎
目前网上很多模拟登录知乎的代码已经无法使用,即使是二、三月的代码也已经无法模拟登陆知乎,所以我现在将新版知乎的模拟登录代码和讲解发布出来。
喵叔
2020/09/08
9410
想爬虫?登录了再说
摘要: 在进行爬虫时,除了常见的不用登录就能爬取的网站,还有一类需要先登录的网站。比如豆瓣、知乎,以及上一篇文章中的桔子网。这一类网站又可以分为:只需输入帐号密码、除了帐号密码还需输入或点击验证码等类型。本文以只需输入账号密码就能登录的桔子网为例,介绍模拟登录常用的 3 种方法。
Python数据科学
2018/12/10
1.9K0
想爬虫?登录了再说
推荐阅读
相关推荐
Python+Selenium爬虫:豆瓣登录反反爬策略解析
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档