首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Python爬取并简单分析猫眼电影影评

开发工具

Python版本:3.6.4

相关模块:

requests模块;

pyecharts模块;

jieba模块;

scipy模块;

wordcloud模块;

以及一些Python自带的模块。

环境搭建

安装Python并添加到环境变量,pip安装需要的相关模块即可。

数据爬取

我们想要爬取的数据是猫眼电影中某部电影下方的评论信息:

由于PC端每部电影的评论数据只显示几条而已,因此我们选择爬取移动端的影评数据,这里以电影“狗十三”为例,移动端地址为:

http://m.maoyan.com/movie/78480/comments?

注:78480为电影编号,可根据你自己的需求修改。

它大概长这样:

简单抓包可得:

即对其添加页码和时间信息即可获得对应的影评数据,于是我们就可以开始写代码了:

在cmd窗口运行maoyan.py文件测试一下代码,效果如下图所示:

爬取结果保存在comments_data.pkl文件中。

All Done!完整源代码详见相关文件。

数据分析

这里以爬取到的电影“狗十三”的影评数据为例,时间关系只爬了几千条数据,不过也足够用来做做简单的数据分析了~

首先,让我们来看看发布影评的网友在全国范围内的分布情况吧:

再来看看发布影评的网友男女比例呗:

再来看看电影的评分分布呗:

把影评做成词云玩一哈?

看看评论数量随日期的变化?

T_T时间不早了,就先这样呗~

完整源代码详见相关文件。

Charles的皮卡丘

Pikachu~

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181227B1L10E00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券