上次猫哥讲到了
利用Python抓取豆瓣电影详细信息
的下半部分,这次猫哥将继续向下讲解,进行更深入的信息抓取。
我们上次已经获取到了所有电影的URL链接。
得到了每个电影的URL之后,我们就可以逐个的进行请求并获取详细电影数据。
从获取的信息我们可以看到,虽然有内容,但是看起来却很乱,接下来我们对提取的内容进行处理。
如果你认为这样就已经结束了的话,那可就想多了。我们要对我们的爬虫进行伪装,要不然刚跑两步就会被人家打断小腿。
1、设置请求头headers
2、设置随机延时0~3秒
3、设置代理IP,测试的话用免费的就可以。
在代码中使用代理IP
4、保存,至于如何保存猫哥在这里就不讲了,网上有很多资料。而猫哥会在Scrapy项目为大家讲解更加简便的存储方式。
本次内容到这里就结束了,下期猫哥将告诉大家如何配置Scrapy框架环境。
领取专属 10元无门槛券
私享最新 技术干货