首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

【涨知识】数据可视化之词云图绘制方法

ꔷ词云图 ꔷ

一、词云图

词云图是一种用来展现高频关键词的可视化表达,通过文字、色彩、图形的搭配,产生有冲击力地视觉效果,而且能够传达有价值的信息。

1、词云就是通过形成“关键词云层”或“关键词渲染”,对网络文本中出现频率较高的“关键词”的视觉上的突出。

2、词云图过滤掉大量的文本信息,使浏览网页者只要一眼扫过文本就可以领略文本的主旨。

一般数据分析流程分为:

2、通过对数据进行预处理、文本分词、词频统计、词云展示,熟悉制作词云。

二、用jieba库实现中文分词

要从中文文本中提取高频词汇,需要使用中文分词(Chinese Word Segmentation)技术。分词是指将一个文本序列切分成一个个单独的词。我们知道,在英文的行文中,单词之间以空格作为分隔符,而中文的词语之间没有一个形式上的分解符,因此,中文分词比英文分词要复杂一些。在Python中,可以利用jieba库来快速完成中文分词。

1.jieba 库的安装与基本用法

import jieba

word=jieba.cut(“今天饭菜很好吃”)

for i in word:

 print(i)

2.读取文本内容并进行分词

import jieba

report=open(“文件.txt”,”r”).read()

##打开一个文件并命名

3. 按指定长度筛选分词后的词

import jieba

report=open(“文件.txt”,”r”).read()  ##打开一个文件并命名

words=jieba.cut(report)  ##分词

report_words []   ##创建一个空列表

for word in words:

if len(word)>=4:

Report_words.append(word)

##选出长度大于4的分词,并赋给##report_words

print(report_words)

4.统计高频词汇

统计高频词汇用collections库中的Counter()函数就可以完成,代码如下:

from collections import counter

results=counter(report_words)

今天先敲这么多!!!!

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OvKi2L2VgBDyhAdr0FnPd1IQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券