上一期文章
PYTHON爬虫系列--图片爬取
讲了在已知一个网址时,如何批量爬取网址中的所有图片,可能大家还是觉得功能不够强大,自己手动操作比写代码还要快,今天给大家介绍一下进阶版,我们批量把几百个网址的上万张照片分主题名字在一分钟内全部下载下来。
首先先回顾一下上次的完整代码:
小编对上面这份代码做个修改,改为使用BeautifulSoup 库,提高一下容错率,修改后的代码功能木有改变,新代码如下:
修改后的代码多了个功能,可以把图片保存到文章标题的文件夹下,效果如图:
好,那现在我们放大招,一样以上次的博客为例,我们把他全部博客图片都使用此办法爬取(此处仅为技术交流,不要用于违法用途):
第一步:获取全部博文地址
可以参考批量获取图片地址的方式,代码如下:
效果:
使用了多线程操作
第二步:合并代码
效果:
多线程会导致图片存贮位置出错,所以取消了上面的多线程操作
结果:
500篇博文仅爬取了39篇就报错了,报错日志为:
直觉告诉我是因为冒号,于是修改了一下代码,将中替换为为,问题解决:
不使用多线程,代码速度过慢,于是还是用了,同时使用绝对路径的方式避免图片保存路径出错,最终代码:
最终耗时120s左右,爬取博文494篇,图片7480张
今天的分享就到这里,再见。
下期预告:
在Jupyter Notebook里面写SAS代码以及用Python写SAS
喜欢我就长按下面这个萌萌的二维码关注我吧~
领取专属 10元无门槛券
私享最新 技术干货