前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >文本挖掘分析《欢乐颂》到底谁和谁堪称好闺蜜、谁和谁又最为般配?

文本挖掘分析《欢乐颂》到底谁和谁堪称好闺蜜、谁和谁又最为般配?

作者头像
机器学习AI算法工程
发布于 2018-03-13 08:43:54
发布于 2018-03-13 08:43:54
1K0
举报

听说最近大家都在看《欢乐颂》,这部热剧里,女性可谓是绝对的主角,22楼5个女房客的互动好像把男性角色们的风头都抢光了;但是热门剧中又总是不能缺了言情戏的点缀。所以,《欢乐颂》到底谁和谁堪称好闺蜜、谁和谁又最为般配呢?还是让文本挖掘为你揭晓吧……

方法

要判断两个人的关系的密切程度,可以从他们接触的频率、交流的次数入手;反映到小说上,就是两个人出现在同一场景或同一事件里的次数很多。因此在实际分析时,我们假设一个段落是一个场景,出现在这个段落里的人物,彼此之间都是有关系的。基于这个假设,我们先对原著小说进行文本分词,再将每个段落里出现的人物抓取出来,然后统计每组人物关系出现的频数,以得到我们关注的人物之间的关系网络。

上述分析思路中蕴含的最关键的技术点就是文本分词。在本次分析中,我们使用R软件中的segmentCN函数来实现。R是一个开源软件,用于数据处理、统计分析和制图,因为可以免费下载和使用,以及包含了实现各种分析功能的程序包,被广泛认可和使用。(要调用segmentCN函数需要加载Rwordseg程序包和rJava程序包,其中Rwordseg程序包已经不能直接在R中通过install.packages直接安装,而是需要先下载到本地再在R中加载)。从加载程序包,到进行中文分词,再到初步抓取人物的程序如下图所示:

我们这次主要分析的人物包括欢乐颂22层的5位女生——安迪、曲筱绡、樊胜美、邱莹莹和关雎尔,以及在电视剧中与5位女生有密切情感纠葛,且在广大女性观众“换老公清单”里的5位男士——赵启平、魏渭、王柏川、谭宗明和包奕凡。

对于这10个人物,至多应该有45种(两两)人物关系,当然也许也有人生压根没有交集的。为了更准确更完整地抓取每一个场景中的人物,我们考虑到加上这是个人物的昵称,比如魏渭的昵称是“奇点”,如果不抓取这个名字,可能最后分析出来的结果就是安迪和魏渭从来没有爱过。

分析结果

最终我们按照关系密切程度排序,排在前三名,即关系最密切的3组人物关系如下图所示:

安迪和曲筱绡在666个场景中同时出现,站到“安迪x曲筱绡”cp的你们真是太6了!樊胜美和邱莹莹在611个场景中同时出现,料想二人大概是一直处于一个挖坑一个填的模式中吧。安迪和小包总同时出现在602个场景中,算是出现频次最高的异性cp了,而安迪和奇点(安迪的第一任男朋友魏渭)在小说原著中,共同出现的场次为443次。所以安迪最后还是和小包总在一起了?从我们的分析结果来看是这样的……为奇点点蜡1秒钟。

另外我们还将人物关系网络用更直观的网络关系图的形式展现出来,如下图所示:

从图上来看,安迪俨然是人生赢家啊,左拥右抱不说,还霸占着辣么多小姑娘,简直羡煞旁人。反观奇点,人艰不拆,您老还是早觅出路的好。似乎第二女主非樊胜美莫属了,她既与各姐妹关系都十分密切,也与王柏川关系稳定,也是让大家十分欣慰。最值得关注的是,暗恋赵医生的关关,他俩的线呢?再仔仔细细端详一番,还是没找到,真考验眼神。

看到这里,大家可能会提出一个疑问,我们之前假设一个段落代表一个场景,但实际小说可能需要几个段落才能把一个场景讲完;按照之前的假设,我们会重复统计一些人物关系,也会遗漏一些人物关系。因此我们对方法进行改进,加入一个段落跨度的参数,用于定义一个场景。在我们的分析中,设定这个参数等于3,即在第i段出现的某个人物,除了和本段的其他人物有关系外,也和i+1段和i+2段出现的人物有关系。举个简单的例子,第i段抓取出的人物是曲筱绡和赵医生, 在第i+1段抓取的人物是安迪和奇点,在第i+2段没有抓取到这10个人物中的任何一位,于是计曲筱绡和赵医生、曲筱绡和安迪、曲筱绡和奇点、赵医生和安迪、赵医生和奇点的人物关系出现一次。

按照这种做法,最终我们得到关系密切程度排在前三名的3组人物关系如下:

安迪x樊胜美cp击败了安迪和小包总的官配,笔者不禁感叹,百合大法好!

画出的人物关系网络如下图所示:

不管怎么看,安迪都是人生赢家啊,其他人可以洗洗睡了。奇点,把你跟安迪放得再近,似乎也没多大用,哎。。。终于!换了一种算法,可以看到关关和赵医生了,不过和奇点一样,然并卵。果然本剧还是一部弘扬姐妹情的主旋律作品。

后续改进方向

本文在对人物关系的紧密程度进行分析时,认为出现在几个段落内的人物,彼此之间都是有关系的,但关系的紧密程度会被认为是一致的;然而现实中在一个场景里,会有事件主要人物和次要人物,他们之间的关系的紧密程度显然是不同的。于是在未来的分析中,可以考虑识别人物在小说中出现的位置,计算人物之间的距离,识别场景/事件里的主要人物和次要人物,以及他们之间的亲疏程度,赋予差异化的权重,从而更准确地反映人物关系的紧密程度。

此外,以我们现在的分析结果,曲筱绡和樊胜美这对人物关系在小说中出现的频次还略多于曲筱绡和赵医生,但我不能下结论说曲筱绡跟“樊大姐”的关系比跟她的“唐僧”还亲密。这是由于我们没有分析人物之间的情感关系造成的,因此在未来的分析中,还可以考虑引入情感分析。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2016-06-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据挖掘DT数据分析 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
从《欢乐颂》五美开讲,在京城如何选房?
《欢乐颂2》大结局的火锅餐已吃完,但围绕“五美”的话题热度却未减,YY《欢乐颂3》的群众更是乐此不疲。虽然俘获亿万富豪帅总裁、邂逅不羁摇滚小青年的剧情有些遥远,但“买房”的情节却仿佛时刻都在身边上演,这时,你我都是“五美”。 现实生活中,个人情况迥异的“五美”会如何选房呢?生活在京城的“五美”们该如何选房呢? 我们先来了解一下北京的小区情况: 从小区分布看,北京以天安门为中心呈环线分布,五环内占比26%,五环到六环之间的占比35.2%。 从价格来看,自古信奉“上风上水”的帝都,北部均价明显高于南部,
腾讯位置服务
2018/11/07
7570
从《欢乐颂》五美开讲,在京城如何选房?
DeepSeek 入门指导手册——从入门到精通【3】
🌟 通过这些步骤,您可以高效地构建和管理自己的私人知识库,无论是法律判例、医疗手册还是产品知识,都能轻松整理和调用!
@派大星
2025/02/26
1500
DeepSeek 入门指导手册——从入门到精通【3】
java自动生成百家姓随机姓名函数
游戏开发领域 角色扮演游戏(RPG) 在 RPG 游戏中,需要为大量的非玩家角色(NPC)生成姓名。例如,在一个中世纪奇幻风格的 RPG 游戏中,游戏世界里可能有成千上万个 NPC,包括村庄里的村民、城堡中的卫兵、酒馆里的酒保等。随机生成姓名可以让这些 NPC 的名字更具多样性,增强游戏世界的真实感。像《上古卷轴》系列游戏,其庞大的游戏世界中有各种各样的种族和角色,随机姓名生成技术能为每个角色赋予独特的名字,使玩家在与 NPC 互动时更有沉浸感。 多人在线战斗竞技游戏(MOBA) 对于 MOBA 游戏中的英雄或角色命名,随机姓名也有一定的应用。有些 MOBA 游戏会定期推出新英雄,在设计阶段可以使用随机姓名生成来获取一些创意灵感。而且在一些自定义游戏模式或玩家创建房间时,随机生成的姓名可以用于临时分配给玩家或队伍,增加游戏的趣味性。 文学创作方面 小说写作 当创作小说,尤其是长篇小说或者需要构建复杂人物关系的小说时,作者可能需要快速生成大量的人物名字。比如,在一部历史小说中,涉及到一个大家族的众多人物,或者在一部玄幻小说中,有许多不同门派的弟子。随机姓名生成可以帮助作者快速得到一些名字,节省构思时间,同时还能确保名字的多样性,避免人物名字重复或过于相似而让读者混淆。像金庸先生的武侠小说中人物众多,若使用随机姓名生成工具辅助,可以在一定程度上为创作提供便利。 剧本创作 在编写剧本时,无论是电影剧本、电视剧剧本还是舞台剧剧本,都需要为角色命名。对于一些群像戏或者需要快速构建场景和人物的情况,随机姓名生成可以发挥作用。例如,在一个描写校园生活的剧本中,需要很多学生角色的名字,随机生成姓名能够满足这个需求。 数据模拟和测试领域 市场调研和用户测试 在市场调研中,有时候需要模拟大量的用户数据,其中包括用户姓名。例如,在测试一个新的电商平台的用户注册流程或者用户体验时,需要使用随机姓名来填充用户信息。这些随机姓名可以帮助测试系统在不同姓名长度、不同姓名风格等情况下的兼容性和准确性。 软件开发测试 当开发涉及用户信息管理的软件时,如客户关系管理系统(CRM)、人力资源管理系统(HRMS)等,需要大量的姓名数据来进行功能测试。通过随机生成姓名,可以模拟真实的用户场景,检查软件在数据输入、存储、检索等环节是否正常工作。 教育领域 语言教学 在语言教学活动中,例如汉语教学或者外语教学,教师可能需要为学生提供一些人名来进行语言练习。随机生成的姓名可以用于制作练习题,如让学生用目标语言翻译人名、根据人名编写对话等。同时,这些姓名可以具有不同的文化背景和风格,帮助学生更好地了解语言在人名使用方面的文化差异。 教育游戏开发 开发教育游戏时,比如识字游戏、文化知识竞赛游戏等,随机姓名可以作为游戏元素出现。例如,在一个中国古代文化知识竞赛游戏中,以随机生成的古代人名作为参赛选手的名字,增加游戏的趣味性和文化氛围。
红目香薰
2024/12/20
1160
java自动生成百家姓随机姓名函数
重磅 | 围棋之美-DeepMind发布AlphaGo视角对弈原始棋谱[附下载]
大数据文摘编辑作品 转载具体要求见文末 ◆ ◆ ◆ 摘要 AlphaGo与李世石的棋局已过去近半年时间,而这场“世纪之战”带来的“人工智能”热潮依然在持续发酵。 Deepmind官网10个小时之前发布了这场棋局【AlphaGo】视角的原始棋谱重现,以AlphaGo的视角,更进一步还原了整场棋局的变化。 此外,Deepmind还制作了在线互动棋谱,还原每一步行棋,并在右侧配上专业解说来分析。 从第一局的【破晓】到第二局 【创造力】、第三局【革命】、第四局【永不放弃】,直到最后一局【 新时代】,每一步进展和每
大数据文摘
2018/05/22
1.9K0
弹幕挖掘在综艺节目热点分析中的应用初探
作者:黄耀鹏, 腾讯PCG数据分析工程师 |导语 视频弹幕作为视频内容延伸、以及用户喜好反馈的一部分,有着巨大的挖掘价值。本文旨在通过运用文本挖掘技术,从弹幕中挖掘综艺节目热点话题,助力平台精准把握用户消费偏好、提升节目运营效率。 声明:本文运营方案相关的思考为个人观点,不代表腾讯视频既有运营方案和平台价值取向。本文仅纯粹作为个人感兴趣的技术研究总结。抛砖引玉,期待感兴趣的同学一起交流探讨。 1. 业务场景思考 1.1 视频弹幕的本质 弹幕文化,首先兴起于ACG社区等小众群体。而随着B站等弹幕视频网站的
腾讯大讲堂
2020/12/02
1.7K0
响铃:新零售迷上了形象类IP,搭便车,还是打错了车?
“这个世界上本来不存在新零售,新零售是靠人创造出来的,今天我们正在走这条路的过程当中。给任何深入浅出定性的描述都是不完整的,最终都要靠实践不断地去探索。
曾响铃
2018/08/20
5960
响铃:新零售迷上了形象类IP,搭便车,还是打错了车?
Rutgers大学熊辉教授:《易经》如何指导我们做人工智能?
我们看这个世界主要有两种方式:一种方式是从上往下看世界;另外一种是东方人所擅长的《易经》方法看世界,也就是归纳法,从下往上看世界。《易经》追求三易,不易、变易和简易。大道至简,《易经》的这三易如何指导我们做数据挖掘以及人工智能研究呢?(本文按熊辉教授于第三次人工智能前沿讲习班上的报告<Talent Analytics: Prospects and Opportunities>进行整理发布。)
马上科普尚尚
2020/05/14
1.9K0
Rutgers大学熊辉教授:《易经》如何指导我们做人工智能?
手搓智能体的这一年
过去的一年多,大模型风起云涌,不断迭代,作为一个多年 NLP 产品方向的从业者,可以说是享受其中,惊喜连连。记得22年底,那时疫情放开,身边的人全部病倒,在身体冷热交加中看到了 ChatGPT 的发布,马上在病榻上完成了注册,那时的感觉就仿佛黑暗中看到了曙光。当时我在一家物联网公司的 AI 研究院工作,基于 ChatGPT 开始设计很多 demo 取代之前的 NLP 任务 bert 方案,后面一年多不断地实验各种大模型的应用方法,颇为有趣。
腾讯云开发者
2024/06/05
5521
手搓智能体的这一年
【视频】文本挖掘专题:Python、R用LSTM情感语义分析实例合集|上市银行年报、微博评论、红楼梦、汽车口碑数据采集词云可视化
作为数据科学家,我们始终关注如何从非结构化数据中提取高价值信息。本专题合集聚焦企业年报的文本分析技术,通过Python与R语言实战案例,系统展示如何利用自然语言处理(NLP)技术量化企业年报的情感倾向。以10家上市银行2010-2022年的130份年报为研究对象,我们构建了包含停用词过滤、情感词典匹配、LSTM神经网络分类等完整技术链路,最终生成可量化的乐观指标矩阵(点击文末“阅读原文”获取完整代码、数据、文档)。
拓端
2025/03/18
1330
【视频】文本挖掘专题:Python、R用LSTM情感语义分析实例合集|上市银行年报、微博评论、红楼梦、汽车口碑数据采集词云可视化
AI会是音乐行业的《命运交响曲》吗?|AI&Society创造营2万字实录
5月7日,腾讯研究院举办了主题为“AI 是音乐行业的《命运交响曲》吗? ——人工智能如何重塑音乐创作、服务与产业”的线上沙龙,探讨人工智能技术如何在音乐领域带来创新和变革。
小腾资讯君
2024/07/11
2120
学习音视频技术要看什么书?世界读书日图书推荐
 点击上方“LiveVideoStack”关注我们 世 界 读 书 日 世界读书日(World Book Day),也被称为世界图书和版权日,是联合国教科文组织为促进阅读、出版和推进版权保护而设立的节日,在每年的4月23日进行庆祝。之所以将世界读书日设立在4月23日,是因为这一天也是英国文学巨匠莎士比亚、西班牙伟大作家塞万提斯以及秘鲁伟大的编年史家印卡·加西拉索·德拉维加的辞世纪念日。 每年的读书日,来自世界各地的爱书之人都会以不同的方式庆祝这个节日,比如组织读书会一起阅读一本好书、打扮成文学作品中的人物、
LiveVideoStack
2022/04/22
1.3K0
学习音视频技术要看什么书?世界读书日图书推荐
迈克尔·霍利:当我看到人们急着加入新行列、抛弃高度发展的老技术时,我就感到很伤心
  点击上方“LiveVideoStack”关注我们 迈克尔·霍利(Michael Hawley) “ Michael Hawley 这是一篇来自上世纪80年代的采访,采访对象为IoT先驱人物迈克尔·霍利。 Droid Works(机器人工场)在Lucasfilm(卢卡斯影业公司)旗下承担着把电影制作过程数字化这一意义重大的任务。作为其中的数字音频程序员,迈克尔·霍利(Michael Hawley)参与了SoundDroid(音响机器人)的软件开发,这款软件可以看作一个装在盒子里的全数字化音响工作室,它可
LiveVideoStack
2022/05/31
5680
迈克尔·霍利:当我看到人们急着加入新行列、抛弃高度发展的老技术时,我就感到很伤心
20个超级好用的Kimi+官方提示词模板
你是一个专业的提示词工程师,擅长将常规的 Prompt 转化为结构化的 Prompt,并
AIGC部落
2024/06/24
2.2K0
20个超级好用的Kimi+官方提示词模板
Python电影评论数据分析系统_echarts数据可视化
书接上文,继上文实现了《复仇者联盟4:终局之战》电影的影评数据分析采集之后,本文主要对获取到的影评数据进行一些可视化展示,主要的可视化展示手段是词云。
全栈程序员站长
2022/09/30
1.1K0
Python电影评论数据分析系统_echarts数据可视化
手搓AI智能体实战经验
腾讯日前也正式发布了大模型应用平台元器和混元 C 端产品元宝,也希望大家一起在上面多做一些有意思的智能体,故分享一下之前的探索经验,供大家参考。
腾讯技术工程官方号
2024/06/14
1.1K1
手搓AI智能体实战经验
移动互联网10年,传奇一直在发生
一位记者问:“这都是哪请来的托,太敬业了!”工作人员只得实话实说:“都是自己来的,我们也没想到。”
瑾诺学长
2018/10/10
1.5K0
人工智能万亿市场待挖掘
发轫于2007年的移动互联网浪潮已经席卷全球,极大地改变了我们的生存状态。然而,就在资本市场热切地期待移动互联网催生出更多新应用服务、更多新商业模式的时候,由技术水平不足导致的发展瓶颈已然出现。与此同时,为突破上述瓶颈,新一轮更激动人心、更值得期待的技术革命风暴已经诞生,将成为未来10年乃至更长时间内IT产业发展的焦点,将再次并更加彻底地颠覆世界。这一轮技术革命风暴,它的名字叫做“人工智能”(Artificial Intelligence,以下简称AI)。
全栈程序员站长
2022/06/25
1.6K0
人工智能万亿市场待挖掘
面向初学者的网络安全(一)
这是本书的第二版。 虽然网络安全问题不断增加,但关于网络安全的入门书籍仍然非常少。 原因很简单:
ApacheCN_飞龙
2024/05/24
1140
《增长黑客》节选与笔记[通俗易懂]
这本书涉及了很多具体又贴合现实的互联网产品问题,即使你是非专业人士,也应该读一读,了解开发者是如何把你当猫耍的,以便你更好地认识一些套路,解锁,为选择手机软件或者云端应用擦亮眼睛!
全栈程序员站长
2022/08/27
7.8K0
罗振宇《时间的朋友2018》跨年演讲全文
2018年12月31日20:30,深圳“春茧”体育馆,罗振宇2018“时间的朋友”跨年演讲如约而至。罗胖曾发下大愿望:跨年演讲要连办二十年。今年,是第四场,也是倒数第十七场。在历时四个小时的演讲中,罗胖通过对过去一整年的回顾和未来的展望,连发“扎心五问”,最终揭示出——比起普通人无法把控的大趋势,真正能给所有人带来机会,从细微处引发大变化的,恰恰是我们身边的各种 “小趋势”。
ytkah
2019/01/03
3.2K0
推荐阅读
相关推荐
从《欢乐颂》五美开讲,在京城如何选房?
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档