前言
请先阅读
“中国年轻人正带领国家走向危机”,这锅背是不背?
一文,以对“手把手教你完成一个数据科学小项目”系列有个全局性的了解。
本系列代码统一开源在GitHub:DesertsX/gulius-projects,感兴趣的朋友可以先行 star 哈。
SnowNLP 情感打分
读取数据,并提前安装好这个NLP的库: 。其他用法参见:snownlp - github ,本文只对每条评论数据进行情感打分。
注意,snownlp 是基于电商评价的语料语料,所以对其他语料进行情感打分可能效果不是很好,可自行尝试其他库进行比较,“择其善者而从之”…
如果评论数据量大的话,这一步会耗些时间,可以喝杯枸杞酒压压惊。
先来看看正面的评价,评分处于0-1之间,越接近1越正面:
再来看看负面的评论
本次就不进行更细致的挖掘了,大家可自行进行探索,相信经过这一个系列的洗礼,诸位pandas操作起来已经滚瓜切菜,不在话下了吧。
基于 TF-IDF 算法的关键词抽取
接下来看看评论里出现的关键词都有哪些,直接用jieba提取就行,参数可设置输出对应词性的词语。
自行感受一下……大家反应强烈,并不愿背锅。
词云
这一步繁琐了,大家有简洁的代码可替换掉。
高频词如下所示,和上面提取的关键词很多重合:
老朋友轻松绘制颜值不俗的词云:
舆论情况如下:
评论内容详情
最后再提下,用pandas读取的数据,无法看到每条评论的全部内容,不太清楚有没有参数可以设置查看全部文本。
这里自行查看长度在50-100区间内的全部评论数据:
完结撒花
以上算是更新完了本项目的全部内容,不算长也不算短的旅程里,耳闻目睹了不少小伙伴去DesertsX/gulius-projects - GitHub下载了代码,并跟着跑程序,古柳也很好奇大家的感受如何,欢迎留言评论进行反馈和分享哈。
此外,古柳也相信大家已经能够应用到自己感兴趣的数据集上并进行好玩的分析、挖掘和可视化了,期待大家分享自己的作品哈。
这里先剧透下古柳想玩的一些玩意,以之前热播的于正的清宫剧《延禧攻略》为例,可以用MIT的深度学习训练后的接口进行城市街景识别,看看下图“大猪蹄子”皇上的场景是什么?
诚不我欺,给出的结果还是挺可靠的:
再用偶然接触到的某知识图谱API看看与实体“延禧攻略”相关的内容:
由于原本数据来源就是豆瓣等平台,所以还是蛮准确的,能深挖的内容也很多,比如古柳脑洞清奇的把这个知识图谱API用来当获取豆瓣数据的“爬虫”接口了。逃……以上,这里先卖个关子,后续揭秘这两个好玩的网站哈。
领取专属 10元无门槛券
私享最新 技术干货