作为徐老怪的忠实影迷,《狄仁杰之四大天王》肯定是要去看的。看豆瓣评分和前两部相差不多,所以本文就简单分析了一下《狄仁杰》的影评。
数据爬取
本来笔者是打算爬取豆瓣的全部影评,但是很不幸,数据爬取到一半,我的账号被封了(建议大家改为动态IP进行爬取),于是转战于猫眼。猫眼的短评不能直接通过源码获得,需要寻找它的数据接口,如下:
其中341516属于电影的专属ID,offset代表页数且只展示1000页的内容,同时仅限于当日的评论。此文只为做影评分析演示,所以笔者只爬取了今日的评论,去重后仅为几百条,建议大家多爬取今天的数据,再做分析。
代码如下:
爬取数据如下:
直观来看,有用的数据仅为城市、评分和评论。我们分别采用热力图、柱状图和云图来进行可视化分析。
观影者分布热力图
根据观影者的城市,我们画出了观影者分布情况:
可明显发现东部地区,尤其是北京、上海、广东,成都等城市最为突出,当然,这和经济发展有着重要的联系,也符合我们的常规想法。
代码如下:
评分柱状图
相较于豆瓣的评分机制,猫眼的评分机制允许给出半星的评价,于是通过简单的柱状图来大概看一下评分情况。
大部分的评分都高于3分,给出满分的最多,只有少数的观影者给出了低分,看来徐克这部电影的口碑还行,至少在及格线以上。那大家观完影,最直观的感受是什么呢,下面就通过短评分析来看看。
代码如下:
短评词云图
为了分析短评,我们采用jieba对短评进行了分词,然后做出词云图。
背景图:
词云图:
和前两部一样,最突出的是特效、剧情和徐老怪,看来这部电影的特效做得很棒,徐老怪的个人风格也展示得淋漓尽致。同时,也能发现好看、不错、推荐也是观影者的主要感受,看来还是蛮值得去看的。
代码如下:
结语
本文只是做了简单的数据爬取和分析,主要是用以学习如何进行分词,词云和热力图,建议大家可以基于此进行练习。
声明:本文为作者投稿,版权归对方所有。
领取专属 10元无门槛券
私享最新 技术干货