首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >微博话题爬虫新增发布手机、超话字段

微博话题爬虫新增发布手机、超话字段

作者头像
月小水长
发布2021-10-26 13:39:07
发布2021-10-26 13:39:07
7820
举报
文章被收录于专栏:月小水长月小水长

目前公众号平台改变了推送机制,点“赞”、点“在看”、添加过“星标”的同学,都会优先接收到我的文章推送,所以大家读完文章后,记得点一下“在看”和“赞”。

最新的话题爬虫新增了 source 字段,这个字段包含了发布手机、超话等诸多信息,可以去 2021 新版微博话题爬虫发布 获取最新的爬虫文件。该爬虫爬取保存的 csv 文件如下:

尺寸限制,截图尚未截全

文件是边抓取边保存的,保存路径在项目的 topic 文件夹下,建议在 Pycharm 中直接打开保存的 csv 文件。

新加了之后,新版话题爬虫的字段已经多达十四个,无论是微博 ID、发布时间,内容等微博信息,还是转发数、点赞数和评论数等社区信息,亦或者是用户名、用户主页等用户信息,还是地理位置、发布手机等其他信息,均可以抓取保存,看到很多读者在后台留言说想要新增一个发布用户的 UID,其实这个 UID 在字段用户主页 user_link 就体现出来了,user_link 里面的数字串就是 UID。可以下面的方式提取。

代码语言:javascript
复制
 if '?' in user_link:
    user_link = user_link[:user_link.index('?')]
user_id = user_link[user_link.rindex('/')+1:]

同时,最近使用新版微博话题爬虫时,出现 UnboundLocalError 较多

代码语言:javascript
复制
 local variable 'like_num' referenced before assignment

也一并修复了。

最后,公众号后台留言问题较多,可能有遗漏无法一一回复,新开了交流群,欢迎进群讨论。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-10-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 月小水长 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档