精彩内容第一时间送达!
上篇从理论上总结讲述了反爬虫的原因、反爬虫的常用手段以及我们针对反爬虫进行的反反爬虫手段!这篇操刀实战爬取一些精彩图片~(考虑到上篇纯粹的理论姿势都能被封,这里不做展示,相信大部分小伙伴都看到了上期的成果展示哈~)
首先我们都知道要爬取网站图片有简单的几个步骤:获取网页源码、审阅元素寻找所需信息、下载并保存到指定位置。
因为本爬虫系列曾爬取过头条上的妹子图,大部分步骤雷同,这里主要是针对上篇中的反爬与反反爬进行拓展,采取模块化的思路进行程序文档编写。(推荐小甲鱼系列视频,非广告……)
首先,主函数目的就是下载并保存目标图片:
主函数中的download_img()函数需要如下代码中的几个步骤。按照模块化的思路,定义get_page函数、find_imgs函数和save_img函数,使得函数框架更加的清晰。
接下来就该写的是几个自定义函数了,而在get_page函数和save_img函数中都需要读取url,获取信息。所以考虑到代码精简,再定义个子函数url_open()。如下代码所示(注释部分为使用代理IP的时候,&header的伪装和代理IP的使用参考上篇文章)
下边是download函数里需要调用的三个自定义子函数:
以上是按照模块化的思路进行编写的程序,可读性较强,相信大家能够理解。另有一套实际操作很easy的源代码可以爬取煎蛋网的meizi图。(怕和谐,不放成果图了)可扫码联系小编索要!
领取专属 10元无门槛券
私享最新 技术干货