之前的课程了解了怎么从网络中爬取想要的数据信息,今天的课程讲一下简单的数据分析,词云图,当然数据分析远不止做一个词云图,这里只是从简单的开始,你会惊讶于python的强大。做出漂亮的词云图非常简单。
词云图,能直观的展示词汇的使用频率,频度越高,显示的越大,可以了解关注度情况。在数据分析和挖掘方面有一定用途,也是比较常见的一个方法。
生成词云需要用到WordCloud库,这个安装和其它库的安装一样,很简单,这里不再赘述。先导入需要的库文件
结巴清洗库jieba主要用于生产词云前对文本文件进行清洗,把一些没有意义的词剔除。matplotlib是数据可视化常用的库,pickle是python语言的一个标准模块,安装python后已包含pickle库,不需要单独再安装。pickle模块实现了基本的数据序列化和反序列化。通过pickle模块的序列化操作我们能够将程序中运行的对象信息保存到文件中去,永久存储;通过pickle模块的反序列化操作,我们能够从文件中创建上一次程序保存的对象。
序列化的方法为pickle.dump(),该方法的相关参数如下:
pickle.dump(obj, file, protocol=None,*,fix_imports=True)
该方法实现的是将序列化后的对象obj以二进制形式写入文件file中,进行保存。它的功能等同于Pickler(file, protocol).dump(obj)。关于参数file,有一点需要注意,必须是以二进制的形式进行操作(写入)。
创建词云函数wordCloud(), 带三个参数,便于用户自定义输入: 文本文件,背景图片和颜色,确保文件在同一目录下。还是以Jabra耳机的客户评论数据来做例子,前面课程已经从网站上抓取出来了。
函数定义好之后,就可以调用了:
测试一下效果,还算不错:
领取专属 10元无门槛券
私享最新 技术干货