之前的微博话题爬虫
里区分了话题爬虫和关键词爬虫的区别,相同点是它们的页面是一模一样的,只是文本带 ## 区别与否;而微博超话又不等同于一般的微博话题,它具有独立的页面地址和样式。
一般的微博话题的地址如下:
https://s.weibo.com/weibo?q=%23%E6%9D%8E%E8%8D%A3%E6%B5%A9%23
其页面样式如下:
而微博超话的页面样式如下:
其页面地址格式如下:
https://weibo.com/p/10080868ed174b2d302045692b38756ee47f21/super_index#1640834166497
其中的数字字母 10080868ed174b2d302045692b38756ee47f21 就是这个超话的 id。可以看到页面有关注按钮,意味着超话是有粉丝的,但是新版本已经无法查看粉丝列表了,我们只能通过发的帖子或图片里找粉丝 id,暂且称之为活跃粉丝;还有一个相册 tab;本爬虫的两大目标:抓取超话活跃粉丝和下载超话相册图片。
如图所示
运行中
图片是实时下载,最后的活跃粉丝是爬完或断网出错结束时才写入 csv,运行一会儿手动断网结束,下面下载的图片及活跃粉丝
代码全部开源,地址如下
https://github.com/Python3Spiders/WeiboSuperSpider/blob/master/%E6%97%A0%20GUI%20%E5%8A%9F%E8%83%BD%E7%8B%AC%E7%AB%8B%E7%89%88/WeiboSuperTopicActiveUserSpider.py
可以复制到浏览器打开,也可以点击文末阅读原文直达。
拿到代码后,需要替换两个参数,第一个就是 super_topic_id,即上文所说的超话 id,可以直接在浏览器地址栏复制得到;第二个是 cookie , 由于抓取的核心接口是 /p/aj/proxy,复制 cookie 需要遵循以下步骤。
1、确保已经登录了新版本 weibo.com;确保电脑关闭了 V**;
2、打开一个超话主页的相册 tab 例如,
https://weibo.com/p/10080868ed174b2d302045692b38756ee47f21/topic_album?from=page_100808&mod=TAB#place
3、下拉,复制 /p/aj/proxy 接口的 cookie;cookie 开头如下
SINAGLOBAL=*********
4、复制 cookie 时右键,点复制而不是 copy value;
5、替换 id 和 cookie,代码就能像演示效果那样 run 起来了。