全文链接:https://tecdat.cn/?p=34319
相关视频
近年来,随着大数据和文本挖掘技术的发展,对《红楼梦》等古典文学作品的深度分析成为可能。本研究采用R语言作为分析工具,对《红楼梦》全文进行文本挖掘,通过词频统计、词云可视化以及前后对比分析,以期深入探索这部经典小说的主题演变和人物塑造。
读入数据
将需要分析的文本放入记事本中,保存到相应路径,并在R中打开。这儿我导入的是《红楼梦》的文本。
先导入rJava和Rwordseg两个包
library(rJava)
library(Rwordseg)
分词+统计词频
words=unlist(lapply(X=lecre, FUN=seentCN))
#unlist将list类型的数据,转化为vector
#lapply()返回一个长度与X一致的列表,每个元素为FUN计算出的结果,且分别对应到X中的每个元素。
table统计数据的频数
降序排序
v=rev(sort(v))
过滤掉1个字的结果和词频小于100的结果
d1=subset(d, nchar(as.chad$词汇))>1 & d$词频.Freq>=100)
画出标签云
wordcloud(d1$词
领取专属 10元无门槛券
私享最新 技术干货