相比较一条微博的正文内容,微博的评论区往往有着更多的态度和情感极性,是不错的语料分析文本来源,因此对微博评论的抓取需求较大,笔者在以往分享过几个微博评论抓取的代码或者教程:
维护了三年依然有效,但是有一个问题,由于接口限制,很多微博评论只能抓到前面几十页或者几百页,对应的评论数量也就是几百条或者几千条,怎么在一条微博中爬到上万条评论甚至几十万条评论呢,这就是今天的推送要解决的问题。
这是一个全新的微博评论爬虫系统,抓取的 csv 结果字段包括评论 id、评论时间、评论内容、评论回复数、点赞数、评论用户 id、评论用户名、评论用户性别、评论用户地址、评论用户认证类型、评论用户的粉丝数和关注数等字段~,全部为网页公开信息,不包括任何隐私数据,示例结果文件如下:
爬虫系统部署在服务器上,可在以下网页直接使用:
https://weibo-crawl-visual.buyixiao.xyz/weibo-comment-spider
抓取结束后,可以直接在网页上进行可视化分析:
https://weibo-crawl-visual.buyixiao.xyz/weibo-comment-visual
可视分析分为趋势分析、属地分析、情感分析、词云生成四部分。
在趋势分析 tab,可以按照月、天、小时、分钟四个维度对评论的评论数和点赞数、回复数的变化趋势可视化。
在属地分析 tab,可以直观的看到评论用户的属地分布:
情感分析 tab 则是对每一条评论文本的情感做了极性比例可视化:
最后一个 tab 则是对所有的评论文本分词后进行词云可视化,并且可以在网页上自定义停用词:
最后,点击下方阅读原文直达评论爬虫系统,也可复制下方地址到浏览器打开
https://weibo-crawl-visual.buyixiao.xyz/weibo-comment-spider