Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >十九大讲话文本分析(R语言)

十九大讲话文本分析(R语言)

作者头像
三猫
发布于 2018-04-10 03:21:07
发布于 2018-04-10 03:21:07
1.1K0
举报

18日观看了十九大的开幕直播,聆听了习大大的重要讲话,如此重要的讲话,怎能不结合我们的文本挖掘技术来深刻学习一下呢!这次的文章就让我们用R里面的jiebaR包和wordcloud2包,对习大大的讲话内容进行分词与统计,看看这次讲话都提到了什么?有哪些关键词?


  • jiebaR简介

1,worker( ):加载分词引擎。里面的type参数用来选择引擎类型,可选的有:混合模型‘mix’,最大概率法‘mp’,隐马尔科夫‘hmm’,关键词‘keywords’等。还有其他参数可以设置停用词,关键词数等,具体在加载了jiebaR包后,可以用help("worker")进行查看。

2,segment():在调用了分词引擎后,可以通过调用segment函数来进行分词。

  • wordcloud2简介

wordcloud2可以用来画词云,主要的函数为wordcloud2(),函数中的主要参数如下:

1,data:词云生成数据,包含具体词语以及频率

2,size:字体大小,一般来说该值越小,生成的形状轮廓越明显

3,fontFamily:字体,如‘微软雅黑’

4,fontWeight:字体粗细,包含‘normal’,‘bold’以及‘600’

5,color:字体颜色,可以选择‘random-dark’以及‘random-light’

6,backgroundColor:背景颜色

7,minRontatinmaxRontatin:字体旋转角度范围的最小值以及最大值

8,rotationRation:字体旋转比例,如设定为1,则全部词语都会发生旋转

9,shape:词云形状,‘cardioid’(苹果形),‘star’(星形),‘diamond’(钻石),‘triangle-forward’(三角形),‘triangle’(三角形),‘pentagon’(五边形)。也可以通过figPath参数导入图片地址,自定义词云形状

  • 讲话内容分析

将txt文件导入到R中,并载入相应的包。

wenben<-scan('D:\\十九大报告文本分析\\在中国共产党第十九次全国代表大会上的报告.txt',what='') library(jiebaR) library(wordcloud2)

接下来,调用分析引擎,进行分词,分词过程中,自定义了要除掉的停用词。分词后,统计词频,并根据频数由大到小排序,取前100个。

cut1<-worker(type="mix",stop_word='D:\\parttime\\公众号\\十九大报告文本分析\\rep.txt') seg<-segment(wenben,cut1) segfreq<-table(seg) segfreq <- sort(segfreq, decreasing = TRUE)[1:100] head(segfreq)

分词部分结果如下:

seg 发展 人民 社会主义 党 全面 实现 212 157 146 104 88 83

在进行了分词并统计了词频后,就可以绘制词云。我们首先通过自定义设置了词云的颜色,然后进行绘制。

js_color_fun = "function (word, weight) { return (weight > 140) ? '#D02090' : '#CDB5CD'; }" wordcloud2(segfreq,size=0.8,color = htmlwidgets::JS(js_color_fun),backgroundColor = "black",shape = "diamond", minRotation = -pi/2, maxRotation = -pi/2)

词云的结果充分印证了那句话“发展才是硬道理”啊,并且,我们的习大大一直把广大人民挂在心中,有木有!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-10-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器学习养成记 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
R语言爬虫与文本分析
之前用python做过简单的爬虫与分析,今天尝试一下用R完成相应的功能。首先用R爬取了《了不起的麦瑟尔夫人》豆瓣短评作为语料,然后进行了词云绘制、关键词提取的基本操作。 语料爬取 寻找链接 之
三猫
2018/04/10
2K0
R语言爬虫与文本分析
基于R语言利用QQ群进行数据挖掘案例整理
       利用QQ群进行数据挖掘案例,数据源来源于2016年12-2017年大致一个月的QQ群基本数据,通过对聊天内容的分析,了解QQ聊天群资料了解时间,人群以及关键词,并构建相应图表、云图等,下
学到老
2018/03/19
9830
基于R语言利用QQ群进行数据挖掘案例整理
R语言信息可视化——文字云
这一篇跟大家分享R语言信息可视化——文字云。 R语言可以轻松处理信息可视化,并且很早就有专用的信息可视化包——WordCloud。 可是这个第一版的文字云工具,真的超级烂,不仅参数多,而且呈现效果烂,无法自定义形状,颜色也不好搭配。 今天的主角是WordCloud2,该包的升级版(虽然我不知道这两个包是否是同一个作者开发的)。 R语言配置环境: R x64 3.31/Rstudio 0.99.903/wordcloud2 0.2.0 加载字符云包: library(wordcloud2) 语法精要: wo
数据小磨坊
2018/04/11
1.6K0
R语言信息可视化——文字云
文本挖掘|不得不知的jiebaR包,切词分词?
基于文本分析的场景有词云图、基于距离的文本聚类、基于监督的文本分类、情感分析等等。不管是文档库,文章、段落或句子,针对文本挖掘的基础都集中于词的分析,即针对文档库/段落/句子等的分词(切词)。词是很多中文自然语言处理的基础,分词有助于提取文档的特征,对后续的分类模型构建有很大影响。jiebaR包的切词手段有多种,比如基于最大概率法mp,隐马尔科夫hmm,最大概率法+隐马尔科夫混合法mix,查询法query。jiebaR 包参考链接: http://qinwenfeng.com/jiebaR/。
黑妹的小屋
2020/08/05
1.9K0
文本挖掘|不得不知的jiebaR包,切词分词?
绘图系列|R-wordcloud2包绘制词云
前段时间读完大刘的流浪地球,本来想着写点东西... 结果“懒癌”了,今天就先弄个词云凑合吧( ╯□╰ )。
生信补给站
2020/08/06
6630
R语言实现网页版词云图的绘制
今天我们为大家介绍一个简单的词云图绘制的R包wordcloud2,这个包借助shiny框架实现了图像的可交互。废话不多说,接下来我们看下它的使用。
一粒沙
2019/07/31
1.5K0
词云图,看过没做过?快来,教你秘籍
今天我们来说一说可视化的问题,如果这个时候我们要对频数进行可视化的话,我们首先想到的应该是一个什么样子的图形呢?很多人可能会说是柱状图。还有一些科研喵们,看过我们的教程的,可能会想到棒棒糖图(Lollipop)或者说滑珠图(Dot plot)。当然这些图都是适合的,但是这些图形都存在一个严重的问题,那就是他们只适合于分类较少时的绘图。
用户6317549
2020/06/16
1.1K0
R语言挖掘二十大报告关键词
万众瞩目的二十大正在如火如荼的召开,哪些方面是国家建设的重点是每个人都非常关心的话题。
Listenlii-生物信息知识分享
2022/12/07
8540
R语言挖掘二十大报告关键词
十分钟视频,手把手教你用Python撒情人节狗粮的正确姿势
大数据文摘作品 转载具体要求见文末 作者 | 寒小阳 视频后期 | 崔云柯 是的,你们没有猜错,这是一期撒狗粮的手把手教学文章! 刚刚从春节回家被爸妈逼婚的懵逼中回过神来,明天又到了满世界秀恩爱的情人节,各位给女朋友的礼物都准备好了吗? 如果还没有准备,不要慌张,老司机大数据文摘不仅文章有深度,套路也不浅,在情人节前一天推出的这期手把手系列,小阳老师将花10分钟时间,逐步带各位利用Python完成一个技术范儿十足又有点浪漫的情人节礼物:用词云图带她回忆你们聊天记录里的爱情故事。 给你一张过去的词云图,看看
大数据文摘
2018/05/25
1.3K0
使用pyecharts绘制词云图-淘宝商品评论展示
词云图是一种用来展现高频关键词的可视化表达,通过文字、色彩、图形的搭配,产生有冲击力地视觉效果,而且能够传达有价值的信息。
朱卫军 AI Python
2022/04/03
8800
使用pyecharts绘制词云图-淘宝商品评论展示
数据可视化:认识WordCloud
wordcloud是优秀的词云展示的第三方库,我们可以借助wordcloud轻松实现词云图。使用Wordcloud之前需要先了解它的以下几个特点:
马拉松程序员
2023/09/02
7080
数据可视化:认识WordCloud
Python 爬虫实践:《战狼2》豆瓣影评分析
来源:hang segmentfault.com/a/1190000010473819 简介 刚接触python不久,做一个小项目来练练手。前几天看了《战狼2》,发现它在最新上映的电影里面是排行第一的,如下图所示。准备把豆瓣上对它的影评做一个分析。 目标总览 主要做了三件事: 抓取网页数据 清理数据 用词云进行展示 使用的python版本是3.5. 一、抓取网页数据 第一步要对网页进行访问,python中使用的是urllib库。代码如下: from urllib import request res
小小科
2018/05/02
1.1K0
Python 爬虫实践:《战狼2》豆瓣影评分析
R语言︱文本挖掘——词云wordcloud2包
版权声明:博主原创文章,微信公众号:素质云笔记,转载请注明来源“素质云博客”,谢谢合作!! https://blog.csdn.net/sinat_26917383/article/details/51620019
悟乙己
2019/05/28
2.7K0
R语言之词云:wordcloud&wordcloud2安装及参数说明
      install.packages("devtools");     
数据饕餮
2019/01/14
2.9K0
新年贺词分析
快过年了,想起高中时每年语文老师都会朗读习近平主席的金句名言,以开阔同学们的眼界、猜测高考热点。想到这,心里感慨万千。最近也在复习爬虫的相关知识,于是爬取了三篇习大大的新年贺词,统计词频并生成词云,关注一波近年来我国的热点。
客怎眠qvq
2022/11/01
8880
新年贺词分析
R语言︱文本挖掘——jiabaR包与分词向量化的simhash算法(与word2vec简单比较)
版权声明:博主原创文章,微信公众号:素质云笔记,转载请注明来源“素质云博客”,谢谢合作!! https://blog.csdn.net/sinat_26917383/article/details/51068097
悟乙己
2019/05/27
2.1K0
基于jiebaR包的周杰伦歌词文本挖掘分析
虽然是听了十几年的周杰伦,各种周氏情歌和中国风也算信手拈来,但昨天把13张专辑和十几首单曲的歌词整理成规范的txt文档也着实花了不少时间,这篇文章没做多少深度的分析,只是用杰伦的歌词基于jiebaR包做了简单的分词并用wordcloud2包做了几个词云图,在NLP和文本挖掘领域目前了解不多,但还是胡适那句话:“怕什么真理无穷尽,有一寸得一寸的欢喜!”
IT阅读排行榜
2018/08/16
8400
基于jiebaR包的周杰伦歌词文本挖掘分析
我分析了《用商业案例学R语言数据挖掘》书评,告诉你R有多火
商业智能时代已经全面到来,分析型人才的岗位数量在就业市场中呈现井喷式的增长。无论从事产品研发的工程师,还是从事产品推广的市场人员、人力资源的财务会计人员,都需要掌握数据分析技术,否则很有可能被人工智能时代替代。 “工欲善其事,必先利其器”。当前,R和Python等开源软件方兴未艾,但是这类软件学习曲线缓慢,使很多初学者的热情在进入数据分析的核心领域之前就消失殆尽。而商业数据分析的真正目的是为了解决业务分析需求,构建稳健的数据挖掘模型。因此能否以案例的形式带领我们快读进入数据分析和编程领域领域的资源显得尤为珍
CDA数据分析师
2018/02/11
1.1K0
我分析了《用商业案例学R语言数据挖掘》书评,告诉你R有多火
【Python】文本分析
依赖库 pip install jieba pip install matplotlib pip install wordcloud pip install snownlp 词频统计 # -*- coding: utf-8 -*- import jieba from wordcloud import WordCloud import matplotlib.pyplot as plt # 加载自定义分词字典 jieba.load_userdict("news.txt") # 语料 corpos = "美
py3study
2020/01/14
1.1K0
使用R语言将微信记录制作成词云(简洁)--情人节奥义
参照百度的方法,使用同步助手。安装同步助手--连接手机(安卓苹果均可)--点击“其他功能“--点击微信图标即可进入聊天记录导出界面(非常简单)。
用户1680321
2022/03/10
8300
使用R语言将微信记录制作成词云(简洁)--情人节奥义
推荐阅读
相关推荐
R语言爬虫与文本分析
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文