《邪不压正》是姜文的民国三部曲的最后一部,前两部是《让子弹飞》,《一步之遥》。很多人说,姜文的电影看不懂,上映当日豆瓣评分8.2,现在评分7.1。今天就用python来分析一下到底讲了什么。
用python来分析大致分为三部分1、数据获取。2、数据处理。3、展示数据。
数据获取
在Python爬虫中,一般也是分三步来获取数据
解析网页
我们从猫眼上万条评论中来分析数据,首先打开目标网页
http://maoyan.com/films/248566
我们发现就只有几条数据,在观察也没有发现别的评论。
找不到评论,在爬虫中还可以通过模拟手机APP的方式获取数据。
分析发现offset是加载数量,通过构造参数来获取评论数据显然不能实现。
再分析url:http://m.maoyan.com/mmdb/comments/movie/248566.json?_v_=yes&offset=15&startTime=2018-07-22%2016%3A23%3A43
尝试构造url的方法来解析:
通过这种方式来解释数据:
发现成功拿到数据,开心。
解析数据
我们通过构造一个生成器函数的方式解析数据。
这一部分建议读者先把上一步解析网页得到的数据打印出来,一步一步分析,遇到bug尽量自己调试,打印结果,分析。
保存数据
数据保存完成,接下来就是处理数据
数据处理
得到的文本文件,我们发现有好多重复的数据。
这个时候就要清洗一下数据了
这段代码主要的功能就是去重。代码很简单,仔细看,你会明白的。
数据可视化
这里用pyecharts,将评分和评论进行图表展示。pyecharts是一个用于生成图表的库,使用起来方便,可视化的效果非常好。
想要了解的可以查看:http://pyecharts.org/
经过两天的数据获取,通过获取用户评论制成词云,看到网友对这部影片的态度。排名靠前的有「姜文好看」「看不懂剧情」「彭于晏」等。网友对这部影片还是很不错的。相比电影本身,还有好多网友是冲着国民老公彭于晏。话说肌肉真是煞羡旁人啊。
代码如下:
可以看到,五星评论居多。一星评论也不少,可能没看懂姜文的黑色幽默吧。
代码如下:
到这里就分析完了,姜文的电影生猛,超现实。多看几遍,希望你在姜文的电影中能收获些东西。
总结
这篇文章还有一个粉丝分布的图表,由于代码始终不能完善,在网上找了好多方法没有解决,还要多加学习。
在学习中时常发现乐趣才能使学习不那么枯燥。
一定要多写,才能融会贯通。
领取专属 10元无门槛券
私享最新 技术干货