首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >【开源】微博超话相册下载及超话活跃粉丝抓取

【开源】微博超话相册下载及超话活跃粉丝抓取

作者头像
月小水长
发布于 2022-01-20 09:03:11
发布于 2022-01-20 09:03:11
1.4K00
代码可运行
举报
文章被收录于专栏:月小水长月小水长
运行总次数:0
代码可运行

微博话题 Vs 微博超话

之前的微博话题爬虫

里区分了话题爬虫关键词爬虫的区别,相同点是它们的页面是一模一样的,只是文本带 ## 区别与否;而微博超话又不等同于一般的微博话题,它具有独立的页面地址和样式

一般的微博话题的地址如下:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
https://s.weibo.com/weibo?q=%23%E6%9D%8E%E8%8D%A3%E6%B5%A9%23

其页面样式如下:

而微博超话的页面样式如下:

其页面地址格式如下:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
https://weibo.com/p/10080868ed174b2d302045692b38756ee47f21/super_index#1640834166497

其中的数字字母 10080868ed174b2d302045692b38756ee47f21 就是这个超话的 id。可以看到页面有关注按钮,意味着超话是有粉丝的,但是新版本已经无法查看粉丝列表了,我们只能通过发的帖子或图片里找粉丝 id,暂且称之为活跃粉丝;还有一个相册 tab;本爬虫的两大目标:抓取超话活跃粉丝和下载超话相册图片

演示效果

如图所示

运行中

图片是实时下载,最后的活跃粉丝是爬完或断网出错结束时才写入 csv,运行一会儿手动断网结束,下面下载的图片及活跃粉丝

开源代码

代码全部开源,地址如下

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
https://github.com/Python3Spiders/WeiboSuperSpider/blob/master/%E6%97%A0%20GUI%20%E5%8A%9F%E8%83%BD%E7%8B%AC%E7%AB%8B%E7%89%88/WeiboSuperTopicActiveUserSpider.py

可以复制到浏览器打开,也可以点击文末阅读原文直达

拿到代码后,需要替换两个参数,第一个就是 super_topic_id,即上文所说的超话 id,可以直接在浏览器地址栏复制得到;第二个是 cookie , 由于抓取的核心接口是 /p/aj/proxy,复制 cookie 需要遵循以下步骤。

1、确保已经登录了新版本 weibo.com;确保电脑关闭了 V**;

2、打开一个超话主页的相册 tab 例如,

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
https://weibo.com/p/10080868ed174b2d302045692b38756ee47f21/topic_album?from=page_100808&mod=TAB#place

3、下拉,复制 /p/aj/proxy 接口的 cookie;cookie 开头如下

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
SINAGLOBAL=*********

4、复制 cookie 时右键,点复制而不是 copy value;

5、替换 id 和 cookie,代码就能像演示效果那样 run 起来了。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-12-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 月小水长 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验