说到爬虫,是时候放出这张图了。
(穿有衣服的……别想太歪。)
……吭吭。17年的时候,年少轻狂,
拿着Python,
干了一些,
比较敏感的事。
快两年了。
我。
又要干一些……
敏感的事。
然而这次,我用的不是requests自己造轮子。
使用scrapy。
算上上次scrapy的简单介绍,这应该是第二篇学习scrapy的笔记了。所以就叫scrapy第二篇吧!以后我文章命名,也清晰点。
那,我们就开始吧。
——————————
首先和上次的一样。我们需要新建一个scrapy项目:
scrapy startproject pachong
然后新建一个爬虫
scrapy genspider spiderimg “url”
今天我们严格按照scrapy规章制度来走。
去pachong目录修改我们的item,使得有一个存放img目录的管道。
恩……就写一行代码,其他的scrapy默认。
——————————
然后写我们的爬虫
自己写的,也就四行代码。
1实例化一个item
2通过xpath获取imgurl
3复制给我们刚刚定义的item
4返回item
——————————
然后修改我们的管道,使他可以下载我们提交的imgurl
这里默认是没有导入ImagePipeline的,所以我们需要自己导入。
然后这个PachongPipeling类继承了ImagePipeline这个类。
再通过get_media_requests这个方法下载。
——————————
修改我们的配置,开启图片下载,并添加下载路径。
配置文件就是settints.py这个看文件名应该能懂。
——————————
然后运行。
scrapy runspider spiderimg.py
然后……
然后就,
就可以,
吭吭,仅做学术讨论。
自学scrapy,文章有很多疏漏,
还请谅解,
恩,就在这学的scrapy。
领取专属 10元无门槛券
私享最新 技术干货