專 欄 ❈楼宇,Python中文社区专栏作者。一位正在海外苦苦求学的本科生。初中时自学编程,后来又在几位良师的帮助下走上了计算机科学的道路。曾经的 OIer,现暂时弃坑。...知乎:https://www.zhihu.com/people/lou-yu-54-62/posts GitHub:https://github.com/LouYu2015❈ 用 Python 分析《红楼梦...》(1) 用 Python 分析《红楼梦》(2) 9.3 再次分析 在之前的分析中我们发现,“笑道”这个词似乎和情节的关系比较大,并且严重影响到了我们的分析。...总之,我有点把握认为《红楼梦》前 80 回和后 40 回的用词是有一些差异的,不过因为难以排除剧情的影响,所以我对于作者是不是同一个人这个问题还不敢下定论。
專 欄 ❈楼宇,Python中文社区专栏作者。一位正在海外苦苦求学的本科生。初中时自学编程,后来又在几位良师的帮助下走上了计算机科学的道路。曾经的 OIer,现暂时弃坑。...知乎:https://www.zhihu.com/people/lou-yu-54-62/posts GitHub:https://github.com/LouYu2015❈ 用 Python 分析《红楼梦...(括号内为频数) 通过分词后的词频,我们发现《红楼梦》中的人物戏份由多到少依次是宝玉、凤姐、贾母、袭人、黛玉、王夫人和宝钗。...根据估算的词频表中正确单词的比例,我估计《红楼梦》的词汇量大约是 1.6 万。...莫非《红楼梦》的最后 40 回真的不是同一个作者写的?! 别着急,分析还没结束。
專 欄 ❈楼宇,Python中文社区专栏作者。一位正在海外苦苦求学的本科生。初中时自学编程,后来又在几位良师的帮助下走上了计算机科学的道路。曾经的 OIer,现暂时弃坑。...(文章:用机器学习判定红楼梦后40回是否曹雪芹所写)作者的结论是后四十回的用词和前八十回有明显的差距。...考虑到版权问题,我决定不提供《红楼梦》原文。如果想复现实验结果的话,可以去找小说网站下载。(更新:根据网友提醒,《红楼梦》因为作者去世远远超过 100 年而进入公有领域,不受版权限制。...也可在这里获取《红楼梦》全文:紅樓夢 - 维基文库,自由的图书馆。) 2 文本预处理 这一步很基础,就不赘述了。...最后,我使用了 Ukkonen 算法快速地创建了整篇《红楼梦》的后缀树(用专业的语言描述 Ukkonen 算法的速度:它的时间复杂度是 O(n))。
01.准备 红楼TXT版本电子书一本 红楼人物小全一份(之所以叫小全,是因为只包括宝玉和十二钗) 安装好Python3并且安装pandas和pycharts库 找个夜黑风高,无人打扰的夜晚(毕竟这是个技术活...最后的最后,撸完代码,又有重新再看一遍红楼梦的冲动了,冲鸭!
然而,今天以改变世界为己任的的技术团队,和几百年前以满足主人需求为存在意义的女仆团队,其实有颇多共同之处——不信我们来一起翻翻《红楼梦》。...《红楼梦》这种伟大作品的力量,这样历经世代盛衰的人,看透了人性和世态炎凉之后的泣血之作,则可以穿越时空,以为今天的教训。 每个人都只有一个人生可以经历,却可以借助他人著作去体会不同的人生。
写在前面 在上一篇文章,我们借用jieba分词工具,提取了《红楼梦》120回中的出现次数较高的词,然后用词云工具将结果画了出来。...这一次我们将会更细致分析红楼梦,而且由于jieba分词工具是基于现代白话文而进行分词,可能对红楼梦这种半白半古的文风分析起来有偏差。这里我们借鉴知乎的一篇文章,手动建立分词。...为了查看分词随着章节的变化,除了分析整本红楼梦,我们还将红楼梦120章回分开来,逐章进行分词分析。...作为红楼梦中的搞笑担当,刘姥姥的出场三个阶段十分明显,第6回刘姥姥一进荣国府、39回刘姥姥是信口开河、41回刘姥姥醉卧怡红院、113回忏宿冤凤姐托村妪。...后语 我们用文本分析方法,窥见了红楼梦中一些主要信息和情节变化。欢迎大家留言讨论,说出自己感兴趣的文本素材,比如小说,朋友圈,微博等等。
如果让爆火的人工智能聊天机器人ChatGPT续写《红楼梦》后四十回,会得到什么样的结局呢? 2月7日晚,潇湘晨报记者联系到已经有两个月使用经验的范先生,他向记者分享了自己与ChatGPT的探讨历程。...两次结局大不相同,但仍不乏“槽点” “我两次提出如何续写《红楼梦》后四十回,它竟给出了不同的答案。”
红楼梦出场人物很多,人物关系极其复杂,这次我们用Python来分析主人公贾宝玉和他的姐妹们,金陵十二钗之间的关系,做一个简要的分析。...第二个是红楼梦人物有多个表达方式,最常见的是文本中有时候会给人物加上姓,如林黛玉;有时候不带上姓,如黛玉。还有贾元春有时候叫贾妃,元妃等: ?...我们使用Python中Echarts将人物关系网画出来: ? 这里圆圈的大小代表人物出场的频率,通过将鼠标发在两个人物之间的边上面,可以显示人物之间关联的次数: ?...在这里你可以看到红楼梦几乎所有人物和关键地点之间的联系。 用鼠标点击人物头像后会出现相关介绍: ? 也可以看到和其他人物之间的关系,和这个人物的主要事件: ?...可谓是非常详尽了,用来辅助读红楼梦是再好不过了。
下载数据集请登录爱数科(www.idatascience.cn) 该数据集包含红楼梦小说的文本内容。 1. 字段描述 2. 数据预览 3. 字段诊断信息 4. 数据来源
问题或建议,请公众号留言或加本人微信; 如果你觉得文章对你有帮助,欢迎加微信交流 今天,一起用 Python 来理一理红楼梦里的那些关系 不要问我为啥是红楼梦,而不是水浒三国或西游,因为我也鉴定的认为,...而红楼梦也是我多次反复品读的为数不多的小说,对它的感情也是最深的。 好了,不酸了,开干。...数据准备 红楼梦 TXT 文件一份 金陵十二钗 + 贾宝玉 人物名称列表 人物列表内容如下: 宝玉 nr 黛玉 nr 宝钗 nr 湘云 nr 凤姐 nr 李纨 nr 元春 nr 迎春 nr 探春 nr...数据处理 读取数据并加载词典 with open("红楼梦.txt", encoding='gb18030') as f: honglou = f.readlines()...renwu_forcut", header=-1) mylist = [k[0].split(" ")[0] for k in renwu_data.values.tolist()] 这样,我们就把红楼梦读取到了
Python在数据分析中越来越受欢迎,已经达到了统计学家对R的喜爱程度,Python的拥护者们当然不会落后于R,开发了一个个好玩的数据分析工具,下面我们来看看如何使用Python,来读红楼梦,绘制小说中的词云...这里我们需要注意两点: 1、为了提高分词的准确度,我们最好寻找我们分词的词库,这里我下载到了红楼梦的分词库,加载如jieba中,然后再进行分词。...wordcloud.fit_words(segStat.head(1000).itertuples(index=False)) plt.imshow(wordcloud) plt.close() 好了,这个就是用Python...绘制红楼梦词云的结果,你发现了什么玄机没有?...我有一个微信公众号,经常会分享一些python技术相关的干货;如果你喜欢我的分享,可以用微信搜索“python语言学习” 关注。欢迎大家加入千人交流答疑裙:699+749+852
没读过《红楼梦》也能知道前后四十回是不是一个作者写的?很久以前,数据侠黎晨,用机器学习的算法分析了《红楼梦》,认为后四十回和前八十回内容上有明显差距。...(DT君注:数据侠黎晨原文《从没看过红楼梦,如何用机器学习判定后40回并非曹雪芹所写》)作者的结论是后四十回的用词和前八十回有明显的差距。...在很多用PCA分析《红楼梦》的博文里,大家都是用出现频率最高的词来分析的。然而问题是,万一频率最高的词是和情节变化相关的呢?...所以,我有点把握认为《红楼梦》前八十回和后四十回的用词是有一些差异的。不过因为难以完全排除剧情的影响,所以我也还不敢下定论。...注:本文是作者《用Python分析红楼梦》文章的编辑版,文中图片均来自作者,仅代表作者观点,不代表DT财经立场。
以前在知乎,看到不少人说“少不读红楼”,于是针对看完《红楼梦》后产生悲观、抑郁、消极、虚无情绪这点来写写。 万紫千红总是空。 我曾在有哪些诗词稍微一改动,马上意境大变?里提到这句诗。...同样的《红楼梦》,又何尝不是呢?...《红楼梦》就像一场春事,从早春的“小青缀树,花信始传”、“有时三点两点雨,到处十枝五枝花”,到仲春的“夹岸桃花蘸水开”、“一枝化作两枝看”,最后归于暮春的“画梁春尽落香尘”、“岁华尽摇落,芳意竟何成”。...或许这就是很多人提到“少不读红楼”的原因,也是我自己曾经有过这段经历的原因:为什么看过红楼梦后,自己变得越来越消极,生活没了动力? 鲁迅说:“悲剧将人生的有价值的东西毁灭给人看”。...大家还记得《红楼梦》第三十一回,宝黛二人对待聚散的两种截然不同态度嘛: 那黛玉天性喜散不喜聚,他想的也有个道理。他说:“人有聚就有散,聚时喜欢,到散时岂不清冷?既清冷则生感伤,所以不如倒是不聚的好。
红楼梦知识提取 ?...红楼梦人物知识图谱,来源 http://kw.fudan.edu.cn/ 知识图谱是人工智能研究中的核心问题,它是人类对世界的近似表示与理解,能够赋予机器精准查询、理解与逻辑推理等能力。...知识图谱也能够辅助我们快速了解小说的人物关系,对于没有仔细读过红楼梦或者是读得似懂非懂的同学们来说,我们可以利用 BERT 搭建起知识提取的机器学习模型提取红楼梦中的人物即实体,并分析人物与人物之间的关系...有一位作者利用 BERT 对红楼梦进行了一个简单的人物知识图谱建模,接下来我们将会详细说明作者是如何从红楼梦中抽取人物和关系。...1)数据准备:作者首先利用正则表达式从红楼梦提取对话,如果假设说出这段话的人的名字出现在这段话的前面,那么可以用这段话前面的一段话作为包含说话人(speaker)的上下文(context)。
在学界一般认为,《红楼梦》后 40 回并非曹雪芹所著。...本文尝试应用机器学习的方法来分析原著文本中作者的用词习惯,从技术角度去说明《红楼梦》前 80 回和后 40 回的写作风格差别,继而可以确认后 40 回非原作者所写。...基于支持向量机技术的《 红楼梦》 作者研究. 红楼梦学刊, (5), 35-52. 李贤平. (1978).《红楼梦》成书新说. 复旦学报(社会科学版)....这里的版本是网上下的电子版,版本不明,建议使用人民文学出版社 1982 年出版的《红楼梦》作为研究对象。 1~80 回有一些被分成了 2 类,可能是后 40 回作者在续写过程中对部分章节进行了修改。
没读过《红楼梦》也能知道前后四十回是不是一个作者写的?很久以前,数据侠黎晨,用机器学习的算法分析了《红楼梦》,认为后四十回和前八十回内容上有明显差距。...(DT君注:数据侠黎晨原文《从没看过红楼梦,如何用机器学习判定后40回并非曹雪芹所写》)作者的结论是后四十回的用词和前八十回有明显的差距。...在很多用PCA分析《红楼梦》的博文里,大家都是用出现频率最高的词来分析的。然而问题是,万一频率最高的词是和情节变化相关的呢?...所以,我有点把握认为《红楼梦》前八十回和后四十回的用词是有一些差异的。不过因为难以完全排除剧情的影响,所以我也还不敢下定论。...注:本文是作者《用Python分析红楼梦》文章的编辑版,文中图片均来自作者 本文数据侠楼宇,一位热爱技术的理工男。曾经的 OIer,现已退坑。同时也对机器学习、网页制作和摄影感兴趣。现在美国读本科。
博主刚刚接触R语言和文本分析,所以只是试探了一下下皮毛,为了将二者结合,试着对《红楼梦》进行分析,首先对《红楼梦》进行分词处理,并统计词频,同时画出标签云。 ? ...闲话的最后,大家一起翻译这篇文章好不好233 http://jmlr.org/proceedings/papers/v37/kusnerb15.pdf 二.利用R对《红楼梦》进行分析 (一)需要加载的包...这儿我导入的是《红楼梦》的文本。...、红楼梦成员名字词库,这三个词库,让分词效果更为理想。....scel","hongloumeng1") installDict("E:\\红楼梦群成员名字词库.scel","hongloumeng2") installDict("E:\\红楼梦词汇.scel"
作者:ituzhi(微信公众号:timeisnull) 在学界一般认为,《红楼梦》后 40 回并非曹雪芹所著。...本文尝试应用机器学习的方法来分析原著文本中作者的用词习惯,从技术角度去说明《红楼梦》前 80 回和后 40 回的写作风格差别,继而可以确认后 40 回非原作者所写。...基于支持向量机技术的《 红楼梦》 作者研究. 红楼梦学刊, (5), 35-52. 李贤平. (1978).《红楼梦》成书新说. 复旦学报(社会科学版). 特征选取 ?...这里的版本是网上下的电子版,版本不明,建议使用人民文学出版社 1982 年出版的《红楼梦》作为研究对象。 1~80 回有一些被分成了 2 类,可能是后 40 回作者在续写过程中对部章节进行了修改。
Python爬虫 --- 2.2 Scrapy 选择器的介绍 原文链接:https://www.fkomm.cn/article/2018/8/2/27.html 在使用Scrapy框架之前,我们必须先了解它是如何筛选数据的...48.3 红楼梦...--------------------------------------------------------------------------------- 相关文章和视频推荐 圆方圆学院汇集 Python...+ AI 名师,打造精品的 Python + AI 技术课程。...flowToken=1007319 加入python学习讨论群 78486745 ,获取资料,和广大群友一起学习。 [sitl15b2bn.png]
本文涉及的python基础语法为:列表及其方法 列表 我们发现了一段存在[]中的谍报密码,为了破解他,我们必须先来学习一下,这个存放着谍报密码的[] 列表是python内置的一种序列,其他的序列我们后面会一一介绍...,我们可以通过列表的索引来获取它的元素,示例如下: list1 = ['西游记', '三国演义', '水浒传', '红楼梦'] #字符串格式一定要记得加上引号 print(list1[0])...'的索引 #输出:红楼梦 列表的切片 列表的切片格式是list[start:end:step] start:起始索引,从0开始,-1表示结束 end:结束索引 step:步长,步长为正时,从左向右取值。...步长为负时,反向取值 注意切片的结果不包含结束索引,即不包含最后的一位,通常我们称为左闭右开, -1代表列表的最后一个位置索引 list1 = ['西游记', '三国演义', '水浒传', '红楼梦']...问题的中涉及的python列表方法都已经在上面的表格里面
领取专属 10元无门槛券
手把手带您无忧上云