首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

数据来聊聊国产电影~

当然今天不是要谈政治啦,刚好最近在学爬虫,那就爬一点儿官产电影数据,用数据告诉大家,国产电影的真实处境。。...(受限于技术手段和代码水平,数据不全,分析过程不敢保证精准,仅作为个人练习使用,请谨慎使用)。...以上是通过对各部电影的详情描述进行分词所获得的电影类型及明星出镜率分析,接下来我们回到最初的数据集,对各部电影的评分评价分数以及上映年份进行更为详细的可视化分析。...、评论数据进行精细化分析。...声明: ---- 限于技术手段和个人水平,以上所抓取数据,进涵盖豆瓣电影库中的一部分,而且其中还混杂诸多娱乐节目、连续剧以及纪录片等,所统计分析结果并不准确,仅作为爬虫和数据可视化练习使用,请勿做为商业决策依据

66830

豆瓣电影数据分析

; 3.比起网上能搜到的其他豆瓣电影数据分析,它更为详细,可视化效果也不错; 概述 本篇报告旨在针对豆瓣电影1990-2020的电影数据进行分析,首先通过编写Python网络爬虫爬取了51375条电影数据...基本框架 1.电影数据的评分、时长分析 1.1 电影数据总体描述 1.2 时长分布 1.3 评分分布 1.4 评分与时长、评论人数的关系 2.电影数据的地区分析 2.1...分析图14,15可以发现,国产各类型电影在90年代至20世纪初数量较少,近年来数量有着明显增长,但在口碑评分上较低,这也导致了豆瓣收录的国产电影,以及世界电影均分下滑。...;国产与美国影片占据97%的市场份额。...另外,列举了票房排名前20的电影,发现国产电影与好莱坞大片占据内地电影市场的较大份额。

3.2K30
您找到你想要的搜索结果了吗?
是的
没有找到

数据分析案例:谁是2018当之无愧的“第一”国产电影

可以看到流量电影的性别比例更加失衡,不过个人对百度的人群画像数据持怀疑态度,因为20-29岁上网主力军的存在感有点太低了。 5.豆瓣评分 ? ? ?...6.基本面分析结论 基本面各方面分析中《红海行动》表现尚佳,《我不是药神》通过掀起讨论狂潮成为票房口碑双丰收的佳片,相比之下《唐人街探案2》各方面表现平平,因此国产“第一”电影将在《红海行动》和《我不是药神...决赛:影评数据分析 我们下一步通过挖掘豆瓣影评信息,实现对两部部影片的深度分析。 1.数据获取 ?...注:由于豆瓣对爬虫的限制,我们只能爬取两部影片各500条短评的数据,虽然会对最终的分析结果产生干扰,但大体结论应该出入不大。 ?...2.电影评分时间走势分析 在仔细分析两部电影的评论数据之前,我们先看一下两部电影的评分走势。该步骤主要是为了查看两部电影的影评是不是存在恶意“差评”或者“水军”刷分的情况,保证两者比较的公平性。 ?

44830

TMDB电影数据分析报告

TMDB电影数据分析报告 前言 数据分析的基本流程: 提出问题 理解数据 数据清洗 构建模型 数据可视化 形成报告 一、提出问题 本次报告的主要任务是:根据历史电影数据分析哪种电影收益能力更好...导入数据集后,通过对数据的查看,并结合要分析的问题,筛选出以下9个要重点分析的变量: |序号|变量名|说明 |------ |1|budget|电影预算(单位:美元) |2|genres|电影风格 |3...特征选择:在分析每一个小问题之前,都要通过特征提取,选择最适合分析的变量,即在分析每一个小问题时,都要先构造一个数据框,放入要分析的变量,而不是在原数据框中乱涂乱画。...四、数据可视化 本次数据分析只是对数据集进行了基本的描述性分析和相关性分析,构建模型步骤均与特征选取、新建数据框一起完成,本案例不属于机器学习范畴,因此不涉及构建模型问题。...', fontsize=20) plt.show() 不同电影风格的受欢迎程度分析: #定义一个数据框,以电影类型为索引,以每种电影类型的受欢迎程度为值 df_gen_popu = pd.DataFrame

92850

豆瓣电影评分数据分析

在前面对接口测试的知识体系相对来说写了很多的文章,今晚就结合部分的知识体系,把获取到的知识体系,结合pyecharts来数据进行一个简单的分析。...实现的思路是访问豆瓣最新的电影,然后使用requests库对它进行请求,获取到服务端返回的数据后,依据获取的数据,分别取出电影的名称,电影的评分,然后形成可视化的东西,这样在可视化的界面中,就可以看到最近电影哪些是比较受欢迎的并且它的评分比较高...type=tv&tag=%E7%83%AD%E9%97%A8&sort=recommend&page_limit=20&page_start=20,然后发送GET请求,就会返回响应数据,在响应数据中获取到电影的名称...,和电影相对应的评分,见实现的源码: #!...movies)) titleRates=[] for rate in rates: titleRates.append(int(float(rate))) bar=Bar('豆瓣电影评分数据分析

1.2K20

Java豆瓣电影爬虫——使用Word2Vec分析电影短评数据

在上篇实现了电影详情和短评数据的抓取。到目前为止,已经抓了2000多部电影电视以及20000多的短评数据。   数据本身没有规律和价值,需要通过分析提炼成知识才有意义。...抱着试试玩的想法,准备做一个有关情感分析方面的统计,看看这些评论里面的小伙伴都抱着什么态度来看待自己看过的电影,怀着何种心情写下的短评。   ...获取数据(这里是豆瓣电影短评数据)     2. 数据处理(将短评数据使用分词器分词,并以空格连接分词结果)     3....载入训练模型,分析感兴趣的维度(比如,近义词分词,关联词分析)     Github: https://github.com/NLPchina/Word2VEC_java 获取数据   数据就用短评数据...,2万多条,对应的大概是2000多部的电影,一部电影抓的短评数在10条左右。

1.6K91

针对我国——国产数据库进行分析

目录 当前数据库生态可以大致分类三类: 一是传统商业数据库 二是开源数据库 第三则是国内新兴数据库 Oracle简介: Oracle数据库特点如下: MySQL简介: MySQL特性: PostgreSQL...从技术角度来讲,PostgreSQL 采用的是比较经典的C/S(client/server)结构,也就是一个客户端对应一个服务器端守护进程的模式,这个守护进程分析客户端来的查询请求,生成规划树,进行数据检索并最终把结果格式化输出后返回给客户端...TiDB简介: TiDB 是 PingCAP [1]  公司自主设计、研发的开源分布式关系型数据库,是一款同时支持在线事务处理与在线分析处理 (Hybrid Transactional and Analytical...提供丰富的数据迁移工具帮助应用便捷完成数据迁移。  OceanBase简介: OceanBase是由蚂蚁集团完全自主研发的国产原生分布式数据库 ,始创于2010年。...已连续9年平稳支撑双11, 创新推出“三地五中心”城市级容灾新标准  ,是一个在TPC-C和TPC-H测试上都刷新了世界纪录的国产原生分布式数据库。

98220

Python数据可视化:2018年电影分析

本次利用猫眼电影,实现对2018年的电影数据进行分析。 ? / 01 / 网页分析 01 标签 ? 通过点击猫眼电影已经归类好的标签,得到网址信息。 02 索引页 ?...打开开发人员工具,获取索引页里电影的链接以及评分信息。 索引页一共有30多页,但是有电影评分的只有10页。 本次只对有电影评分的数据进行获取。 03 详情页 ? 对详情页的信息进行获取。...通过开发人员工具发现,猫眼针对评分,评分人数,累计票房的数据,施加了文字反爬。 ? 通过查看网页源码,发现只要刷新页面,三处文字编码就会改变,无法直接匹配信息。.../ 05 / 数据可视化 可视化源码就不放了,公众号回复电影即可获得。 01 电影票房TOP10 ? 还剩一个多月,不知道榜单上会不会有新成员。最近「毒液」很火,蛮有希望。...上一张图我们知道7月份电影上新最少,票房反而是第二。 这里看了下数据,发现有「我不是药神」「西虹市首富」「邪不压正」「摩天营救」「狄仁杰之四大天王」几部大剧撑着。

90330

豆瓣电影数据分析和可视化

前一段时间出于个人兴趣做了个小demo,主要内容是以豆瓣电影上提供的电影数据为例,完整地展示网络数据从获取、处理到分析、可视化这一过程。纯当练手,也为感兴趣的小伙伴提供相关的技术介绍。...条电影数据,包括电影的标题、url、评分等信息。...数据分析 最基本的分析包括一些统计量的计算,说白了就是固定或以某一个字段分类,对另一个字段进行求和或求平均。...我的主要分析字段是电影数量和平均评分,看它们和电影分类、语言、上映国家、上映时间、时长等其他字段之间有何关联。 数据可视化 俗话说,“一图胜千言”,所以数据分析的结果以可视化网站的形式给出。...网络上可以获取的数据不计其数,只要脑洞开得够大,在数据源、分析技术、可视化方法上进一步提升,就一定可以创造出更有意义和价值的成果。

2.8K70

java抓取豆瓣电影数据分析电影评分,生成统计图表 ---servlet

最近花时间学习了一下使用Java获取网站数据的方法,自己也亲自动手实践一下;共获取3000+数据,去除重复的数据剩余2000+,使用JFreeChart根据电影评分做出几张简单的统计图。...电影评分统计图:     JFreeChart生成图片 ? ? ?     使用jsoup获取该网站的电影数据信息,此网站动态加载数据,如果直接查看网页源代码是看不到数据的。...可以通过js文件,获取相应的数据: ? 部分代码如下: movieServlet.java     主要的功能为:获取网站的电影数据     首先获取每一个电影分类的链接: ?...while(iterator.hasNext()){ // 获取到key值,即url String next = iterator.next(); // 根据某一个类别的链接,获取行对应的电影数据.../** * 获取种类电影信息,保存到数据库 * @param url 某一个种类的链接地址 */ private List getMovieInfo(String url){

2.4K40

Java豆瓣电影爬虫——抓取电影详情和电影短评数据

一直想做个这样的爬虫:定制自己的种子,爬取想要的数据,做点力所能及的小分析。正好,这段时间宝宝出生,一边陪宝宝和宝妈,一边把自己做的这个豆瓣电影爬虫的数据采集部分跑起来。...动机   采集豆瓣电影数据包括电影详情页数据电影的短评数据。   电影详情页如下图所示   需要保存这些详情字段如导演、编剧、演员等还有图中右下方的标签。   ...数据库设计   有了如上的需求,需要设计表,其实很简单,只需要一张电影详情表movie和一张电影短评表comments,另外还需要一张存储网页提取的超链接的记录表record。...比如之前设计了一张tags表,用于存储每部电影的标签,经过调整发现直接放到movie中作为一个字段更加方便,又比如comments表中,commentForMovie是后来加上的,方便查找当前的评论针对哪部电影...Java豆瓣电影爬虫——使用Word2Vec分析电影短评数据 Java豆瓣电影爬虫——小爬虫成长记(附源码)   程序爬取控制在豆瓣可接受范围内,不会给豆瓣服务器带来很大的压力,写此程序也是个人把玩

2.4K90

从爬虫到分析之2018猫眼电影数据

本次利用猫眼电影,实现对2018年的电影数据进行分析。 ? / 01 / 网页分析 01 标签 ? 通过点击猫眼电影已经归类好的标签,得到网址信息。 02 索引页 ?...打开开发人员工具,获取索引页里电影的链接以及评分信息。 索引页一共有30多页,但是有电影评分的只有10页。 本次只对有电影评分的数据进行获取。 03 详情页 ? 对详情页的信息进行获取。...通过开发人员工具发现,猫眼针对评分,评分人数,累计票房的数据,施加了文字反爬。 ? 通过查看网页源码,发现只要刷新页面,三处文字编码就会改变,无法直接匹配信息。.../ 05 / 数据可视化 可视化源码就不放了,公众号回复电影即可获得。 01 电影票房TOP10 ? 还剩一个多月,不知道榜单上会不会有新成员。最近「毒液」很火,蛮有希望。...上一张图我们知道7月份电影上新最少,票房反而是第二。 这里看了下数据,发现有「我不是药神」「西虹市首富」「邪不压正」「摩天营救」「狄仁杰之四大天王」几部大剧撑着。

98830

Python数据分析之猫眼电影TOP100

前言 如果大家经常阅读Python爬虫相关的公众号,都会是以爬虫+数据分析的形式展现的,这样很有趣,图表也很不错,今天了,我就来分享上一次在培训中的一个作品:猫眼电影爬虫及分析。...通过猫眼电影TOP100榜的爬虫,然后进行可视化,让学员体会到,小数据爬虫也能玩出这样的花样来。...爬虫 爬虫分析 这里是获取的是top100的电影数据,进行了跨页爬虫,获取的字段:电影名,主演,上映时间,评分,电影类型和时长。最后保存在csv文件中。...数据分析 数据分析我做成了PPT的样子,大家可以看看~ 总体情况 100部电影,平均得分9.0,平均电影时长128.63。 ? 电影年份趋势 电影年份趋势不大,规律不太明显。 ?...电影类型 电影大部分都是剧情的,爱情才是真谛啊。 ? 演员 小哥和星爷承载了我们的清楚呀~ ? 总结 别看这小小的100条数据,是不是也可以玩出不一样的花样来。

1.1K41

用Python分析国庆最火的电影,20万数据分析

今年的国庆假期,电影院里最受大家瞩目的电影想必就是《我和我的祖国》了吧,这部电影无论从题材还是参演阵容来说,都非常值得大家去观看,这部电影的评价也非常的好,因此,小编决定来分析一波,看看大家对于这部电影的评价如何...首先,小编爬取了从该部电影上映,到10月4号,一共五天的评论。小编一共爬取到了20万+的数据量,尽管采用多线程,但是依旧花费了很长的时间。爬取的数据如下所示。 ?...得到数据后,接下来便是对于数据分析,首先我们来看一下大家最为关心的,评分的分布情况,如下图所示。 ? 可以看出,大家对于这部电影的评分几乎全都是在5分,满分的评价。而且评分在3分以下的非常少。...接下来我们对于好评和差评的人数已经评分的男女性别进行以下分析。 如下图所示。 ? ? 上图中,由于猫眼上针对于某些用户,没有给出好评和差评的数据,所以我们爬取的数据当中只是包含了绝大部分的观影人群。...---- 以上就是小编为大家带来的《我和我的祖国》分析,通过分析,我们发现,大家对于这部剧是抱着非常高的爱国情怀去观看的,虽然演员有小鲜肉也有老戏骨,但是在国家面前,其他的都是微不足道的。

57400

如何准备电影评论数据进行情感分析

您需要从何处开始,以及通过从原始数据到准备建模的数据的步骤来执行什么操作。 在本教程中,您将逐步了解如何为情感分析准备电影评论文本数据。...开发词汇 保存准备好的数据 1.电影评论数据集 “电影评论数据”是由Bo Pang和Lillian Lee于21世纪初从imdb.com网站上收集的电影评论。...接下来,我们可以看看使用词汇来创建电影评论数据集的准备版本。 5.保存准备好的数据 我们可以使用数据清理和选择词汇来准备每个电影评论,并保存准备建模的评论数据准备版本。...数据电影评论数据 情感教育:基于最小切割的主观性总结的情感分析,2004。 电影评论极性数据集(.tgz) 数据集自述文件v2.0和v1.1。...API nltk.tokenize包的API 第2章,访问文本语料库和词汇资源 os API 其他操作系统接口 集合API - 容器数据类型 概要 在本教程中,您将逐步了解如何为观点分析准备电影评论文本数据

4.2K80

Spark综合练习——电影评分数据分析

文章目录 引言 今天给大家带来一个Spark综合练习案例--电影评分 总结 引言 大家好,我是ChinaManor,直译过来就是中国码农的意思,俺希望自己能成为国家复兴道路的铺路人,大数据领域的耕耘者...今天给大家带来一个Spark综合练习案例–电影评分 老师:给定需求统计评分次数>200的电影平均分Top10,并写入Mysql数据库中 我:所有字我都认识,怎么连在一起我就不认识了 ?...= SparkSession .builder() .config("spark.sql.shuffle.partitions", "4") .appName("电影数据分析...val resultDS: Dataset[Row] = reusltDF //a.对数据电影id进行分组 .groupBy($"item_id")...总结 以上便是电影评分数据分析spark版,愿你读过之后有自己的收获,如果有收获不妨一键三连一下~

64810

Spark综合练习——电影评分数据分析

.builder() .config("spark.sql.shuffle.partitions", "4") .appName("电影数据分析") ....SparkSession} import org.apache.spark.sql.functions._ import org.apache.spark.storage.StorageLevel /** * 电影评分数据分析...文件数据为DataFrame - 第二层(中间层):DW层 将加载业务数据电影评分数据)和维度数据电影基本信息数据)进行Join关联,拉宽操作 - 第三层(最上层):DA层...val movieDF: DataFrame = readCsvFile(spark, MOVIES_CSV_FILE_PATH, verbose = false) // step3、【DW层】:将电影评分数据电影信息数据进行关联...= conn) conn.close() } } } } 总结 以上便是电影评分数据分析spark版,愿你读过之后有自己的收获,如果有收获不妨一键三连一下~

1.5K10

数据图说:两部口碑大片如何占领“青春档”

同样青春怀旧;几乎同一天上映;同样三天破亿…你能猜到我在说哪两部电影吗?...没错,一部是2013年4月26日上映的赵薇《致我们终将逝去的青春》三天票房破亿,成为国产影片一匹黑马;今年4月25日上映的《同桌的你》同样三天票房破亿,收获不俗口碑。...两部电影差别在哪些方面?青春怀旧档是怎么形成的?来看看钛媒体作者艾漫科技整理的详实的数据对比: 一、媒体关注度和公众影响力势均力敌 两部影片的媒体关注度和影响力均不输同档期实力派影片。...(数据抓取时间:2013/3/26-5/2 & 2014/3/25-5/1) 二、成功必备要素:档期逢时、题材合理、 受众精准、共同记忆 ? ?...以同样映前一个月左右的时间来看,五大门户曝光总量《致青春》相对大,但以“电影频道”为主要曝光渠道;而《同桌的你》在各个位置曝光均衡。

64880
领券