最近深圳一直大雨,晚上下班也就没时间去跑步了,今天抽空把以前的一份代码修改了一下,给大家分享一下。今天的话只简单讲一下代码功能和效果,明天再详细写一篇文章给大家分享具体的编码过程及遇到的各类问题的处理办法。
Python爬虫的文本爬取我们之前也讲过,用的是读取知乎日报的例子,今天的的例子是爬取豆瓣上某部电影的全部剧照,这次以 《复仇者联盟3:无限战争》为例。
豆瓣上《复仇者联盟3:无限战争》的剧照页面如下图:
豆瓣上妇联三剧照页面
在爬取过程中主要使用了 requests cStringIO Image等库,主要过程就是进入电影剧照页面,获取剧照图片地址,然后将图片保存在本地。主要的问题有:剧照较多,页面需要跳转所以需要一个循环语句,而每一页也有很多图片也需要一个循环语句,我的初步实现效果如下图:
结果列表展示
大图标显示
我觉得可以改进的地方还是很多的,比如图片命名,以及图片去重,这个功能当然也可以用在其他网站,具体代码以及过程明天再分享给大家,祝大家晚安。
领取专属 10元无门槛券
私享最新 技术干货