使用正则爬取猫眼Top100

文章来源：企鹅号 - 自然语言处理爱好者

CSDN博客：皮乾东

知乎：Htrying

微博：Htring的微博

GitHub：Htring

微信公众号：自然语言处理爱好者（ID：NLP_lover）

在本案例中，我们利用requests库和正则表达式来抓取猫眼电影TOP100的相关内容。

目标

提取猫眼电影Top100的电影名称、时间、评分、图片（下载）,提取的站点URL为：http://maoyan.com/board/4，图片将保存到指定文件夹中。

准备工作

需要安装包（安装方式：在配好的环境中：即可）。

抓取分析

通过打开网页，找到网页之间的规律，如图：

可以发现页面的URL变成：http://maoyan.com/board/4?offset=10，比之前的URL多一个参数，offset=10，并且目前显示的结果是：11~20名的电影，由此可以找到其他排名电影页面的URL规律。

正则提取分析

在浏览器端的开发者模式下的Network（使用ctrl+shift+i打开）监听组件下查看源码，如图：

而每个电影的内容都在一个dd标签下：

根据这种状况，就可以去书写正则表达式：

需要说明的是：以上的每个括号表示的就是要获取的内容。

写入文件

在获取提取的结果后，我们将数据写到一个txt文档中，这里数据是使用json格式的内容书写的。

下载图片

涉及到语言、图片、视频的时候，我们可以使用：的形式书写。保存。

代码详解

运行结果

相关快讯