首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

战狼2 影评爬取及分析

作者:hang

原文:https://segmentfault.com/a/1190000010473819

刚接触python不久,做一个小项目来练练手。前几天看了《战狼2》,发现它在最新上映的电影里面是排行第一的,如下图所示。准备把豆瓣上对它的影评做一个分析。

目标总览

主要做了三件事:

抓取网页数据

清理数据

用词云进行展示

使用的python版本是3.5.

一、抓取网页数据

第一步要对网页进行访问,python中使用的是urllib库。代码如下:

其中https://movie.douban.com/nowp...是豆瓣最新上映的电影页面,可以在浏览器中输入该网址进行查看。 html_data是字符串类型的变量,里面存放了网页的html代码。 输入 可以查看,如下图所示:

第二步,需要对得到的html代码进行解析,得到里面提取我们需要的数据。

在python中使用BeautifulSoup库进行html代码的解析。 (注:如果没有安装此库,则使用 进行安装即可!) BeautifulSoup使用的格式如下:

第一个参数为需要提取数据的html,第二个参数是指定解析器,然后使用 读取html标签中的内容。

但是html中有这么多的标签,该读取哪些标签呢?其实,最简单的办法是我们可以打开我们爬取网页的html代码,然后查看我们需要的数据在哪个html标签里面,再进行读取就可以了。如下图所示:

从上图中可以看出在 标签开始是我们想要的数据,里面有电影的名称、评分、主演等信息。所以相应的代码编写如下:

其中 是一个列表,可以用 查看里面的内容,如下图所示:

在上图中可以看到data-subject属性里面放了电影的id号码,而在img标签的alt属性里面放了电影的名字,因此我们就通过这两个属性来得到电影的id和名称。(注:打开电影短评的网页时需要用到电影的id,所以需要对它进行解析),编写代码如下:

其中列表nowplaying_list中就存放了最新电影的id和名称,可以使用 进行查看,如下图所示:

可以看到和豆瓣网址上面是匹配的。这样就得到了最新电影的信息了。接下来就要进行对最新电影短评进行分析了。例如《战狼2》的短评网址为:

其中 就是电影的id, 表示评论的第0条评论。

接下来接对该网址进行解析了。打开上图中的短评页面的html代码,我们发现关于评论的数据是在 标签的 属性下面,如下图所示:

因此对此标签进行解析,代码如下:

此时在 列表中存放的就是div标签和comment属性下面的html代码了。在上图中还可以发现在p标签下面存放了网友对电影的评论,如下图所示:

因此对 代码中的html代码继续进行解析,代码如下:

使用 查看eachCommentList列表中的内容,可以看到里面存里我们想要的影评。如下图所示:

好的,至此我们已经爬取了豆瓣最近播放电影的评论数据,接下来就要对数据进行清洗和词云显示了。

二、数据清洗

为了方便进行数据进行清洗,我们将列表中的数据放在一个字符串数组中,代码如下:

使用 进行查看,如下图所示:

可以看到所有的评论已经变成一个字符串了,但是我们发现评论中还有不少的标点符号等。这些符号对我们进行词频统计时根本没有用,因此要将它们清除。所用的方法是正则表达式。python中正则表达式是通过re模块来实现的。代码如下:

继续使用 语句进行查看,如下图所示:

我们可以看到此时评论数据中已经没有那些标点符号了,数据变得"干净"了很多。

因此要进行词频统计,所以先要进行中文分词操作。在这里我使用的是结巴分词。如果没有安装结巴分词,可以在控制台使用 进行安装。(注:可以使用 查看是否安装了这些库)。代码如下所示:

因为结巴分词要用到pandas,所以我们这里加载了pandas包。可以使用 查看分词之后的结果,如下图所示:

从上图可以看到我们的数据中有"看"、"太"、"的"等虚词(停用词),而这些词在任何场景中都是高频时,并且没有实际的含义,所以我们要他们进行清除。

我把停用词放在一个 文件中,将我们的数据与停用词进行比对即可(注:只要在百度中输入 ,就可以下载到该文件)。去停用词代码如下代码如下:

继续使用 语句来查看结果,如下图所示,停用词已经被出去了。

接下来就要进行词频统计了,代码如下:

用 进行查看,结果如下:

由于我们前面只是爬取了第一页的评论,所以数据有点少,在最后给出的完整代码中,我爬取了10页的评论,所数据还是有参考价值。

三、用词云进行显示

代码如下:

其中 使用来指定字体的,可以在百度上输入 进行下载后,放入程序的根目录即可。显示的图像如下:

到此为止,整个项目的介绍就结束了。由于自己也还是个初学者,接触python不久,代码写的并不好。而且第一次写技术博客,表达的有些冗余,请大家多多包涵,有不对的地方,请大家批评指正。以后我也会将自己做的小项目以这种形式写在博客上和大家一起交流!最后贴上完整的代码。

完整代码

结果显示如下:

上图基本反映了《战狼2》这部电影的情况。

PS:我本人并不喜欢这部电影,内容太空洞、太假,为了爱国而爱国,没意思。哎,这两年真是国产电影的低谷啊,没有一部拿得出手的国产电影,看看人家印度拍的《摔跤吧,爸爸》那才是拍的有深度,同样是表现爱国,国产电影还是需要向别的国家好好学学。

题图:pexels,CC0 授权。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180321A0KPMQ00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券