ꔷ词云图 ꔷ
一、词云图
词云图是一种用来展现高频关键词的可视化表达,通过文字、色彩、图形的搭配,产生有冲击力地视觉效果,而且能够传达有价值的信息。
1、词云就是通过形成“关键词云层”或“关键词渲染”,对网络文本中出现频率较高的“关键词”的视觉上的突出。
2、词云图过滤掉大量的文本信息,使浏览网页者只要一眼扫过文本就可以领略文本的主旨。
一般数据分析流程分为:
2、通过对数据进行预处理、文本分词、词频统计、词云展示,熟悉制作词云。
二、用jieba库实现中文分词
要从中文文本中提取高频词汇,需要使用中文分词(Chinese Word Segmentation)技术。分词是指将一个文本序列切分成一个个单独的词。我们知道,在英文的行文中,单词之间以空格作为分隔符,而中文的词语之间没有一个形式上的分解符,因此,中文分词比英文分词要复杂一些。在Python中,可以利用jieba库来快速完成中文分词。
1.jieba 库的安装与基本用法
import jieba
word=jieba.cut(“今天饭菜很好吃”)
for i in word:
print(i)
2.读取文本内容并进行分词
import jieba
report=open(“文件.txt”,”r”).read()
##打开一个文件并命名
3. 按指定长度筛选分词后的词
import jieba
report=open(“文件.txt”,”r”).read() ##打开一个文件并命名
words=jieba.cut(report) ##分词
report_words [] ##创建一个空列表
for word in words:
if len(word)>=4:
Report_words.append(word)
##选出长度大于4的分词,并赋给##report_words
print(report_words)
4.统计高频词汇
统计高频词汇用collections库中的Counter()函数就可以完成,代码如下:
from collections import counter
results=counter(report_words)
今天先敲这么多!!!!
领取专属 10元无门槛券
私享最新 技术干货