首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Python 分析《红楼梦》(1)

專 欄 ❈楼宇,Python中文社区专栏作者。一位正在海外苦苦求学的本科生。初中时自学编程,后来又在几位良师的帮助下走上了计算机科学的道路。曾经的 OIer,现暂时弃坑。...(文章:用机器学习判定红楼梦后40回是否曹雪芹所写)作者的结论是后四十回的用词和前八十回有明显的差距。...考虑到版权问题,我决定不提供《红楼梦》原文。如果想复现实验结果的话,可以去找小说网站下载。(更新:根据网友提醒,《红楼梦》因为作者去世远远超过 100 年而进入公有领域,不受版权限制。...也可在这里获取《红楼梦》全文:紅樓夢 - 维基文库,自由的图书馆。) 2 文本预处理 这一步很基础,就不赘述了。...最后,我使用了 Ukkonen 算法快速地创建了整篇《红楼梦》的后缀树(用专业的语言描述 Ukkonen 算法的速度:它的时间复杂度是 O(n))。

2.1K80
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    Python 分析《红楼梦》(全)

    專 欄 ❈楼宇,Python中文社区专栏作者。一位正在海外苦苦求学的本科生。初中时自学编程,后来又在几位良师的帮助下走上了计算机科学的道路。曾经的 OIer,现暂时弃坑。...知乎:https://www.zhihu.com/people/lou-yu-54-62/posts GitHub:https://github.com/LouYu2015❈ 用 Python 分析《红楼梦...》(1) 用 Python 分析《红楼梦》(2) 9.3 再次分析 在之前的分析中我们发现,“笑道”这个词似乎和情节的关系比较大,并且严重影响到了我们的分析。...总之,我有点把握认为《红楼梦》前 80 回和后 40 回的用词是有一些差异的,不过因为难以排除剧情的影响,所以我对于作者是不是同一个人这个问题还不敢下定论。

    2.6K100

    Python 分析《红楼梦》(2)

    專 欄 ❈楼宇,Python中文社区专栏作者。一位正在海外苦苦求学的本科生。初中时自学编程,后来又在几位良师的帮助下走上了计算机科学的道路。曾经的 OIer,现暂时弃坑。...知乎:https://www.zhihu.com/people/lou-yu-54-62/posts GitHub:https://github.com/LouYu2015❈ 用 Python 分析《红楼梦...此外,我们还发现《红楼梦》中的人物很爱笑,因为除了人名以外出现次数最多的单词就是“笑道” : ) 我把完整的词频表做成了一个网页,感兴趣的话可以去看一下:红楼词表 第二版 最后,我随机选择了词频表中的...根据估算的词频表中正确单词的比例,我估计《红楼梦》的词汇量大约是 1.6 万。...[转载]白坤峰讲红楼梦(172)贾府鼎盛:该来的都来了史鼎说红楼新浪博客 也许“笑道”这一看似平常的词汇确实侧面反应了贾府的兴衰史呢。

    1.9K50

    pythonpaper

    前面跟大家简单介绍过Python提取多个pdf首页合并输出,还有Python轻松处理Excel。...有位粉丝留言python能不能从文献中提取特定的数字,希望能出一个教程,那么今天我们就来聊一聊如何用pythonpaper,提取特定的数字。...import re #打开要的pdf文件 pdfFileObj = open('meetingminutes.pdf', 'rb') #生成pdf对象 pdfReader = PyPDF2.PdfFileReader...处理word涉及到的两个概念paragraph和run在《python让繁琐工作自动化》这本书中有详细介绍,大家感兴趣可以下去仔细读一下。...这个任务中用到的代码均出自于我前面提到《python让繁琐工作自动化》这本书。 参考资料: Python提取多个pdf首页合并输出 python让繁琐工作自动化‍

    1.3K20

    Python分析红楼梦,见证贾府的兴衰

    写在前面 在上一篇文章,我们借用jieba分词工具,提取了《红楼梦》120回中的出现次数较高的词,然后用词云工具将结果画了出来。...这一次我们将会更细致分析红楼梦,而且由于jieba分词工具是基于现代白话文而进行分词,可能对红楼梦这种半白半古的文风分析起来有偏差。这里我们借鉴知乎的一篇文章,手动建立分词。...为了查看分词随着章节的变化,除了分析整本红楼梦,我们还将红楼梦120章回分开来,逐章进行分词分析。...作为红楼梦中的搞笑担当,刘姥姥的出场三个阶段十分明显,第6回刘姥姥一进荣国府、39回刘姥姥是信口开河、41回刘姥姥醉卧怡红院、113回忏宿冤凤姐托村妪。...后语 我们用文本分析方法,窥见了红楼梦中一些主要信息和情节变化。欢迎大家留言讨论,说出自己感兴趣的文本素材,比如小说,朋友圈,微博等等。

    1.6K10

    Python分析红楼梦,宝玉和十二钗的人物关系

    红楼梦出场人物很多,人物关系极其复杂,这次我们用Python来分析主人公贾宝玉和他的姐妹们,金陵十二钗之间的关系,做一个简要的分析。...第二个是红楼梦人物有多个表达方式,最常见的是文本中有时候会给人物加上姓,如林黛玉;有时候不带上姓,如黛玉。还有贾元春有时候叫贾妃,元妃等: ?...我们使用Python中Echarts将人物关系网画出来: ? 这里圆圈的大小代表人物出场的频率,通过将鼠标发在两个人物之间的边上面,可以显示人物之间关联的次数: ?...在这里你可以看到红楼梦几乎所有人物和关键地点之间的联系。 用鼠标点击人物头像后会出现相关介绍: ? 也可以看到和其他人物之间的关系,和这个人物的主要事件: ?...可谓是非常详尽了,用来辅助红楼梦是再好不过了。

    2.4K30

    Python 来理一理红楼梦里的那些关系

    问题或建议,请公众号留言或加本人微信; 如果你觉得文章对你有帮助,欢迎加微信交流 今天,一起用 Python 来理一理红楼梦里的那些关系 不要问我为啥是红楼梦,而不是水浒三国或西游,因为我也鉴定的认为,...红楼才是无可争议的中国古典小说只巅峰,且不接受反驳!...而红楼梦也是我多次反复品读的为数不多的小说,对它的感情也是最深的。 好了,不酸了,开干。...数据准备 红楼梦 TXT 文件一份 金陵十二钗 + 贾宝玉 人物名称列表 人物列表内容如下: 宝玉 nr 黛玉 nr 宝钗 nr 湘云 nr 凤姐 nr 李纨 nr 元春 nr 迎春 nr 探春 nr...数据处理 读取数据并加载词典 with open("红楼梦.txt", encoding='gb18030') as f: honglou = f.readlines()

    1K20
    领券