首页
学习
活动
专区
工具
TVP
发布

Python爬虫之路

基于python的requests和爬虫框架Scrapy的总结和实践
专栏成员
17
文章
14326
阅读量
14
订阅数
3700字!爬虫数据清洗已经不重要了,我这样的爬虫架构,如履薄冰
在毕业设计中,用Java写下了第一个爬虫。2019年工作之后,从Python的requests原生爬虫库,学到分布式爬虫框架Scrapy,写了60个左右爬虫。然后写了十几篇有关于爬虫的文章。但大多都是围绕着程序设计、功能模块的角度写的,今天就从数据的角度出发,来看看爬虫程序是如何开发的。
叫我阿柒啊
2023-12-19
5241
爬虫入门到放弃01:什么是爬虫
18年初,还在实习期的我因为工作需求开始接触Java爬虫,从一个网站爬取了163W条poi数据,这是我人生中写的第一个爬虫,也是唯一的一个Java爬虫。后来这些poi数据也成了我毕业设计中的一部分。后来开始学习Python爬虫以及爬虫框架Scrapy,尤其是Scrapy,前前后后研究了一个多月,并利用Scrapy构建了千万级数据的ICA(互联网内容识别)资源库。
叫我阿柒啊
2022-05-09
5010
爬虫入门到放弃02:BS4和Xpath两种方式解析网页
一个简单的爬虫程序主要分为两个部分,请求部分和解析部分。请求部分基本一行代码就可以搞定,所以主要来讲述一下解析部分。对于解析,最常用的就是xpath和css选择器,偶尔也会使用正则表达式。
叫我阿柒啊
2021-05-28
1.3K0
爬虫入门到放弃03:爬虫如何模拟人的浏览行为
上一篇文章主要讲了如何解析网页,本篇文章主要来写一下如何发起请求。可能看过前两篇文章的人就开始疑惑了,请求?你不是说一行代码就可以搞定了么。的确,一行代码就能搞定。但是请求部分既然扮演着浏览器的角色,我们是不是应该尽量让它变得和浏览器一样。而我在第一篇文章中也讲到,爬虫是模拟人的行为去获取数据。那么我们就需要知道,一个人去访问网站有什么样的行为?爬虫怎么去模拟人的行为?
叫我阿柒啊
2021-05-30
1.2K0
爬虫入门到放弃04:爬虫=犯罪?对不起,我对钱没有兴趣!
我们身处大数据时代,数据趋于透明化、公开化,我们是否就可以拿着数据为所欲为?几年前很多人向往着"车厘子自由",同样在也有很多人也追求着技术自由。时至今日,我们可以在合法的范围内自由应用技术,那么对于爬虫的合法化,到底有哪些的法律可以来界定?
叫我阿柒啊
2021-06-10
5550
爬虫入门到放弃05:从程序模块设计到代理IP池
上篇文章吧啦吧啦讲了一些有的没的,现在还是回到主题写点技术相关的。本篇文章作为基础爬虫知识的最后一篇,将以爬虫程序的模块设计来完结。
叫我阿柒啊
2021-06-19
4970
爬虫入门到放弃06:爬虫玩转基金(附代码)
爬虫的基本知识已经告一段落,这次就找个网站实战一波。但是为什么选择了基金?这还要从我的故事讲起。
叫我阿柒啊
2021-06-28
6150
爬虫入门到放弃07:eval加密、js函数混淆、字体加密
如果再说IP请求次数检测、验证码这种最常见的反爬虫技术,可能大家听得耳朵都出茧子了。当然,也有的同学写了了几天的爬虫,觉得爬虫太简单、没有啥挑战性。所以特地找了三个有一定难度的网站,希望可以有兴趣的手动实践一下。
叫我阿柒啊
2021-07-07
3.5K0
Scrapy入门到放弃01:为什么Scrapy开启了爬虫2.0时代
在写了七篇爬虫基础文章之后,终于写到心心念念的Scrapy了。Scrapy开启了爬虫2.0的时代,让爬虫以一种崭新的形式呈现在开发者面前。
叫我阿柒啊
2021-07-16
6990
Scrapy入门到放弃02:了解整体架构,开发一个程序
Scrapy开门篇写了一些纯理论知识,这第二篇就要直奔主题了。先来讲讲Scrapy的架构,并从零开始开发一个Scrapy爬虫程序。
叫我阿柒啊
2022-05-09
5490
Scrapy入门到放弃03:理解Settings配置,监控Scrapy引擎
代码未动,配置先行。本篇文章主要讲述一下Scrapy中的配置文件settings.py的参数含义,以及如何去获取一个爬虫程序的运行性能指标。
叫我阿柒啊
2022-05-09
7010
Scrapy入门到放弃04:下载器中间件,让爬虫更完美
MiddleWare,顾名思义,中间件。主要处理请求(例如添加代理IP、添加请求头等)和处理响应
叫我阿柒啊
2022-05-09
8490
Scrapy入门到放弃05:让Item在Pipeline飞一会
本来这篇是打算写Spider中间件的,但是因为这一块涉及到Item,所以这篇文章先将Item讲完,顺便再讲讲Pipeline,然后再讲Spider中间件。
叫我阿柒啊
2022-05-09
4570
Scrapy入门到放弃06:Spider中间件
写一写Spider中间件吧,都凌晨了,一点都不想写,主要是也没啥用...哦不,是平时用得少。因为工作上的事情,已经拖更好久了,这次就趁着半夜写一篇。
叫我阿柒啊
2022-05-09
5520
Scrapy入门到放弃07:爬虫的远程启停、监控
上一篇的枯燥无味,这一篇来还。写到插件篇了,终于能写点有意思的东西了,接下来就基本用法和插件篇来穿插着写一写。
叫我阿柒啊
2022-05-09
9000
Scrapy08:Deltafetch,让爬虫有了记忆
很多时候,爬虫程序跑着跑着,因为网络故障或者程序异常就宕掉了。无奈之下只能重启重新爬取。为了避免这种每次重头再来的情况,我们都会利用mysql、redis、文本等方式,来记录一下爬取过的url。
叫我阿柒啊
2022-12-18
5390
AI新闻爬虫:传统爬虫和XHR异步加密爬虫的碰撞
AI的发展日新月异,及时掌握一些AI的消息和妹子聊天时也不至于词穷(不建议和妹子聊技术)。
叫我阿柒啊
2024-03-12
4160
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档