CSDN博客:皮乾东
知乎:Htrying
微博:Htring的微博
GitHub:Htring
微信公众号:自然语言处理爱好者(ID:NLP_lover)
在本案例中,我们利用requests库和正则表达式来抓取猫眼电影TOP100的相关内容。
1
目标
提取猫眼电影Top100的电影名称、时间、评分、图片(下载),提取的站点URL为:http://maoyan.com/board/4,图片将保存到指定文件夹中。
2
准备工作
需要安装包(安装方式:在配好的环境中:即可)。
3
抓取分析
通过打开网页,找到网页之间的规律,如图:
可以发现页面的URL变成:http://maoyan.com/board/4?offset=10,比之前的URL多一个参数,offset=10,并且目前显示的结果是:11~20名的电影,由此可以找到其他排名电影页面的URL规律。
4
正则提取分析
在浏览器端的开发者模式下的Network(使用ctrl+shift+i打开)监听组件下查看源码,如图:
而每个电影的内容都在一个dd标签下:
根据这种状况,就可以去书写正则表达式:
需要说明的是:以上的每个括号表示的就是要获取的内容。
5
写入文件
在获取提取的结果后,我们将数据写到一个txt文档中,这里数据是使用json格式的内容书写的。
6
下载图片
涉及到语言、图片、视频的时候,我们可以使用:的形式书写。保存。
7
代码详解
8
运行结果
领取专属 10元无门槛券
私享最新 技术干货