目录
前言
分析
具体步骤
登录
爬取与存储
可视化分析
结语
前言
暑期档电影惨淡,但随着哪吒爆红开拓了新局面。这也是国产动画的首次爆红。在哪吒刚出,笔者就算不错的了。没想过仅过了几天就破了10亿。接着头条又突破20亿--------目前11天27亿,势头增长!
那笔者就很好奇人们是怎么看待这一步电影的呢?
哪吒?我想哪吒是成长的一部动画片吧,也是记忆中算得上的动画片了。里面的哪吒、小猪熊、申公豹、石鸡娘娘令人历历在目。我们或许都被哪吒的敢打敢为、勇敢和天真!
分析
对于这么一部爆红的动画电影。我想简单分析人们对。那么就选择猫眼票房或者的短评爬下来分析了。
step1:打开豆瓣主页的界面。F12打开调试点击页面下一页会发现有ajax数据交互。
step2:分析这个接口,发现。返回的是需要解析处理一下。用网页访问这个接口。但是你会发现一旦你它就了。提示你要登录再访问。
step3:思路很清晰了。只需要登录—>访问接口爬取存储—>可视化分析即可
具体步骤
登录
账密登录fidder抓包发现可以。大胆猜测没有cookie限制。登陆后即可访问接口!
程序方面只需要根据参数进行模拟即可,登录完将cookie保存。后面的访问都带着这个cookie即可。
登录部分代码为:
爬取与存储
通过api的规则拼凑,抓下来的数据。我们主要需要,和。
使用Beautifulsoup进行dom解析。使用、将数据写入excel文件中。一个页面20条。页面url增加直到为止停止。
主要代码实现:
对于爬取的结过一览
可视化分析
我们要对评分进行统计、词频统计。还有就是生成词云展示。而对应的就是、库。
评分统计:
对于评分统计,使用数组将上面的,五个分数段读取时候写入,根据数据画出饼状图分析即可。
从上图也可以知道,对于评分,大部分还是分布在5分和4分的,占比分别为和.而2分和1分时非常少!这足以说明这部片绝对不是烂片或者争议不是很大。一部片不可能满足所有人。存在不满意的都在但依然能够接受。所以从评分分布来看哪吒还是广受支持的!
词频统计:
根据jieba分词。统计前面热词出现的次数。反应观众。
可以看的出国产、大圣(大圣归来对比).这些热门话题直戳心头!
词云展示:
相比词频,词云无法看到词语的准确数量,但是可以看的到更多词汇、人们的评价。笔者这里通过count()类(map)对分词结果进行词频统计。统计完的词频排序词展示在2个词云上。这些词语的出现频率均大于10.所以还是。
可以从词云简单分析出大家还是很满意的,充满浓浓、、、!在票房直逼30亿的情况下!我、要去看了。
代码
顺便给出可视化分析部分代码:
结语
如果自己需要可以到github下载项目完整代码。当然,只需要更改部分即可同理分析其他电影。
项目,如影评,对不同评分的平均不同处理、其他不同角度如评论用户性别、地点等等等等,这里不做延申。
如果对等感性趣欢迎关注我的个人公众号交流(关注一波十年少): 持续输出分享!
领取专属 10元无门槛券
私享最新 技术干货