前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >2023 微博评论爬虫 | 突破 1000 页限制,抓取 10w 条微博评论

2023 微博评论爬虫 | 突破 1000 页限制,抓取 10w 条微博评论

作者头像
月小水长
发布2023-07-03 14:38:10
3.1K2
发布2023-07-03 14:38:10
举报
文章被收录于专栏:月小水长

相比较一条微博的正文内容,微博的评论区往往有着更多的态度和情感极性,是不错的语料分析文本来源,因此对微博评论的抓取需求较大,笔者在以往分享过几个微博评论抓取的代码或者教程:

维护了三年依然有效,但是有一个问题,由于接口限制,很多微博评论只能抓到前面几十页或者几百页,对应的评论数量也就是几百条或者几千条,怎么在一条微博中爬到上万条评论甚至几十万条评论呢,这就是今天的推送要解决的问题

这是一个全新的微博评论爬虫系统,抓取的 csv 结果字段包括评论 id、评论时间、评论内容、评论回复数、点赞数、评论用户 id、评论用户名、评论用户性别、评论用户地址、评论用户认证类型、评论用户的粉丝数和关注数等字段~,全部为网页公开信息,不包括任何隐私数据,示例结果文件如下:

爬虫系统部署在服务器上,可在以下网页直接使用:

https://weibo-crawl-visual.buyixiao.xyz/weibo-comment-spider

抓取结束后,可以直接在网页上进行可视化分析:

https://weibo-crawl-visual.buyixiao.xyz/weibo-comment-visual

可视分析分为趋势分析、属地分析、情感分析、词云生成四部分。

在趋势分析 tab,可以按照月、天、小时、分钟四个维度对评论的评论数和点赞数、回复数的变化趋势可视化。

在属地分析 tab,可以直观的看到评论用户的属地分布

情感分析 tab 则是对每一条评论文本的情感做了极性比例可视化

最后一个 tab 则是对所有的评论文本分词后进行词云可视化,并且可以在网页上自定义停用词:

最后,点击下方阅读原文直达评论爬虫系统,也可复制下方地址到浏览器打开

https://weibo-crawl-visual.buyixiao.xyz/weibo-comment-spider

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-06-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 月小水长 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
云服务器
云服务器(Cloud Virtual Machine,CVM)提供安全可靠的弹性计算服务。 您可以实时扩展或缩减计算资源,适应变化的业务需求,并只需按实际使用的资源计费。使用 CVM 可以极大降低您的软硬件采购成本,简化 IT 运维工作。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档