首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

哪吒票房逼近30亿,从豆瓣短评简单分析人们对哪吒的态度

目录

前言

分析

具体步骤

登录

爬取与存储

可视化分析

结语

前言

暑期档电影惨淡,但随着哪吒爆红开拓了新局面。这也是国产动画的首次爆红。在哪吒刚出,笔者就算不错的了。没想过仅过了几天就破了10亿。接着头条又突破20亿--------目前11天27亿,势头增长!

那笔者就很好奇人们是怎么看待这一步电影的呢?

哪吒?我想哪吒是成长的一部动画片吧,也是记忆中算得上的动画片了。里面的哪吒、小猪熊、申公豹、石鸡娘娘令人历历在目。我们或许都被哪吒的敢打敢为、勇敢和天真!

分析

对于这么一部爆红的动画电影。我想简单分析人们对。那么就选择猫眼票房或者的短评爬下来分析了。

step1:打开豆瓣主页的界面。F12打开调试点击页面下一页会发现有ajax数据交互。

step2:分析这个接口,发现。返回的是需要解析处理一下。用网页访问这个接口。但是你会发现一旦你它就了。提示你要登录再访问。

step3:思路很清晰了。只需要登录—>访问接口爬取存储—>可视化分析即可

具体步骤

登录

账密登录fidder抓包发现可以。大胆猜测没有cookie限制。登陆后即可访问接口!

程序方面只需要根据参数进行模拟即可,登录完将cookie保存。后面的访问都带着这个cookie即可。

登录部分代码为:

爬取与存储

通过api的规则拼凑,抓下来的数据。我们主要需要,和。

使用Beautifulsoup进行dom解析。使用、将数据写入excel文件中。一个页面20条。页面url增加直到为止停止。

主要代码实现:

对于爬取的结过一览

可视化分析

我们要对评分进行统计、词频统计。还有就是生成词云展示。而对应的就是、库。

评分统计:

对于评分统计,使用数组将上面的,五个分数段读取时候写入,根据数据画出饼状图分析即可。

从上图也可以知道,对于评分,大部分还是分布在5分和4分的,占比分别为和.而2分和1分时非常少!这足以说明这部片绝对不是烂片或者争议不是很大。一部片不可能满足所有人。存在不满意的都在但依然能够接受。所以从评分分布来看哪吒还是广受支持的!

词频统计:

根据jieba分词。统计前面热词出现的次数。反应观众。

可以看的出国产、大圣(大圣归来对比).这些热门话题直戳心头!

词云展示:

相比词频,词云无法看到词语的准确数量,但是可以看的到更多词汇、人们的评价。笔者这里通过count()类(map)对分词结果进行词频统计。统计完的词频排序词展示在2个词云上。这些词语的出现频率均大于10.所以还是。

可以从词云简单分析出大家还是很满意的,充满浓浓、、、!在票房直逼30亿的情况下!我、要去看了。

代码

顺便给出可视化分析部分代码:

结语

如果自己需要可以到github下载项目完整代码。当然,只需要更改部分即可同理分析其他电影。

项目,如影评,对不同评分的平均不同处理、其他不同角度如评论用户性别、地点等等等等,这里不做延申。

如果对等感性趣欢迎关注我的个人公众号交流(关注一波十年少): 持续输出分享!

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190816A042FC00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券