“直观!”
今天,我们首先对我们最关注对评论部分进行可视化处理,探索文本数据分析的方法。对于文本型数据,例如:随口一句新年快乐竟会带给人如此大的温暖…听到最后真的替小姐姐感到开心的文本类型评论数据,首先得把句子分解成单个词语,然后对词语对词频进行统计,最后对词语进行可视化,这样文本型数据就可以直观对展现出来了!
01
—
jieba分词
jieba分词是一款很适合中文句子分词断句的包,操作简单,效果不错。
上次我们把
数据存储在轻量级数据库SQLite中
,现在到了用它的时候了!通过sql语句从数据库提取数据应该是难不倒各位英雄好汉的,提取出的数据利用正则表达式除去一些不需要的标点符号,让文本更干净一点,再通过jieba分词切分句子,获取单个词语同时过滤掉一些不需要的停词。
这样我们就得到了新鲜的规整文本数据!单个词语的list代表着评论的语料,我们需要计算词语的词频,得到词语出现次数,大致了解评论内容~
[('我', 88), ('工作', 49), ('人', 49), ('不', 40), ('都', 38), ('你', 38), ('故事', 37), ('也', 35), ('自己', 33), ('听', 31), ('好', 31), ('地铁', 26), ('一个', 24), ('说', 20), ('我们', 20), ('她', 20), ('和', 19), ('小姐姐', 19), ('感觉', 18), ('觉得', 16), ('能', 16), ('这个', 15), ('没有', 15), ('生活', 15), ('做', 15), ('真的', 14), ('里', 13), ('会', 13), ('现在', 13), ('让', 13), ('想', 12), ('最后', 12), ('这样', 12), ('希望', 12), ('上', 11), ('可以', 11), ('理解', 11), ('喜欢', 11), ('高兴', 10), ('又', 10), ('什么', 10), ('被', 10), ('辞职', 10), ('找到', 10), ('加油', 10), ('容易', 10), ('着', 10), ('他', 10), ('不是', 10), ('找', 9), ('把', 9), ('听到', 9), ('专业', 9), ('有点', 9), ('那个', 9), ('就是', 9), ('去', 9), ('还', 9), ('对', 9), ('真', 8), ('多', 8), ('个', 8), ('很多', 8), ('不能', 8), ('来', 8), ('因为', 8), ('声音', 7), ('为什么', 7), ('干', 7), ('一直', 7), ('呢', 7), ('出来', 7), ('时候', 7), ('意义', 7), ('以后', 7), ('过', 7), ('每个', 7), ('到', 7), ('油画', 7), ('没', 7), ('为了', 7), ('一样', 6), ('谁', 6), ('这种', 6), ('每', 6), ('但', 6), ('站务员', 6), ('地铁站', 6), ('哭', 6), ('父母', 6), ('朋友', 6), ('开心', 6), ('但是', 6), ('还是', 6), ('不要', 6), ('原来', 5), ('辛苦', 5), ('好听', 5), ('摄影', 5), ('公司', 5)]
各位可根据具体要求,更细致的调整停词表,除去一些无关紧要的词语,获取更重要的词语。
02
—
词云
文本数据可视化部分我们还是使用百度的Echarts的词云绘制,python中利用pyechats包,短短几行语句就可以画出我们想要的词云图了,嘻嘻~
领取专属 10元无门槛券
私享最新 技术干货