前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >【爬虫工具】小红书蒲公英批量采集软件v2.0,高效筛选优质博主 | 2025.5发布

【爬虫工具】小红书蒲公英批量采集软件v2.0,高效筛选优质博主 | 2025.5发布

原创
作者头像
python迷3016
发布2025-05-07 16:49:19
发布2025-05-07 16:49:19
18920
代码可运行
举报
运行总次数:0
代码可运行

声明:本工具仅作学术交流之用,严格遵循相关法律法规,确保平台内容合法合规,严禁用于任何商业活动!

一、背景阐述

1.0 爬取目标

蒲公英(以下简称为 pgy)是小红书推出的一个为优质创作者提供商业合作服务的平台,其核心作用是为品牌和博主搭建内容合作的桥梁,能高效地为品牌精准匹配适合的优质博主。

在 pgy 平台,需要具备特定权限的企业资质账号才能申请开通。成功开通后,进入【寻找博主】页面,能够依据特定的筛选条件筛选出符合要求的博主列表,具体展示如下:
博主广场
博主广场

上述为筛选条件,而下方则是筛选得到的结果。

爬虫功能主要涵盖两大模块:其一,根据筛选条件对博主列表进行爬取;其二,依据爬取到的博主 id 进入详情页面,对详细数据进行爬取,详情页展示如下:
博主详情页
博主详情页
通过对网页接口的深入分析,成功开发出了爬虫 GUI 软件,其界面展示如下:
软件界面
软件界面

总共成功爬取到 34 个字段,具体字段如下:

代码语言:txt
复制
1	关键词
2	页码
3	xhs昵称
4	red_id
5	地址
6	机构
7	数据更新至
8	xhs链接
9	粉丝数
10	账号类型
11	图文报价
12	视频报价
13	合作笔记数
14	预估阅读单价_图文
15	图文3秒阅读
16	日常_阅读中位数
17	日常_互动中位数
18	日常_阅读来源发现页占比
19	日常_阅读来源搜索页占比
20	合作_阅读中位数
21	合作_互动中位数
22	合作_阅读来源发现页占比
23	合作_阅读来源搜索页占比
24	女性粉丝占比
25	年龄占比最多的
26	账号评估
27	合作笔记1阅读数
28	合作笔记2阅读数
29	合作笔记3阅读数
30	合作笔记4阅读数
31	合作笔记5阅读数
32	合作笔记6阅读数
33	合作笔记7阅读数
34	合作笔记8阅读数

详细的演示数据(注意区分下方的 sheet 页):

docs.qq.com/sheet/DVEFhZlFKR1NXVEdN?tab=suenot

1.1 演示视频

软件的操作演示视频如下:

cloud.tencent.com/developer/video/80553

1.2 软件说明

重要说明,请仔细阅读:
软件说明
软件说明

以上。

二、代码讲解

2.0 关于接口

由于采集的字段较多,在开发者模式下分析得到的接口不止一个,采集程序是整合了多个接口进行开发的,具体归纳如下:

代码语言:txt
复制
博主列表接口
日常笔记接口
合作笔记接口
粉丝数接口
阅读单价接口
合作笔记阅读数接口
所属机构接口

以上。

2.1 爬虫采集模块

此软件的开发成本较高,代码量庞大,实现逻辑复杂。为了保护个人的知识版权,避免恶意盗版软件的出现,爬虫的核心代码将不予展示。

2.2 cookie 获取

在运行软件之前,需要将 cookie 值填写到 txt 配置文件中,具体的获取方法如下:
开发者中获取ck
开发者中获取ck

2.3 软件界面模块

主窗口部分:

代码语言:python
代码运行次数:0
运行
复制
# 创建主窗口
root = tk.Tk()
root.title('爬pgy软件v2.0')
# 设置窗口大小
root.minsize(width=850, height=650)

部分界面控件:

代码语言:python
代码运行次数:0
运行
复制
# 笔记关键词
tk.Label(root, justify='left', text='笔记关键词:').place(x=30, y=65)
entry_kw = tk.Text(root, bg='#ffffff', width=22, height=2, )
entry_kw.place(x=105, y=65, anchor='nw')  # 摆放位置

日志输出控件:

代码语言:python
代码运行次数:0
运行
复制
# 运行日志
tk.Label(root, justify='left', text='运行日志:').place(x=30, y=250)
show_list_Frame = tk.Frame(width=780, height=300)  # 创建<消息列表分区>
show_list_Frame.pack_propagate(0)
show_list_Frame.place(x=30, y=270, anchor='nw')  # 摆放位置

2.4 日志模块

良好的日志功能,能够在软件运行出现问题时,快速定位问题原因,便于修复 bug。

核心代码:

代码语言:python
代码运行次数:0
运行
复制
def get_logger(self):
	self.logger = logging.getLogger(__name__)
	# 日志格式
	formatter = '[%(asctime)s-%(filename)s][%(funcName)s-%(lineno)d]--%(message)s'
	# 日志级别
	self.logger.setLevel(logging.DEBUG)
	# 控制台日志
	sh = logging.StreamHandler()
	log_formatter = logging.Formatter(formatter, datefmt='%Y-%m-%d %H:%M:%S')
	# info日志文件名
	info_file_name = time.strftime("%Y-%m-%d") + '.log'
	# 将其保存到特定目录
	case_dir = r'./logs/'
	info_handler = TimedRotatingFileHandler(filename=case_dir + info_file_name,
						when='MIDNIGHT',
						interval=1,
						backupCount=7,
						encoding='utf-8')
软件运行过程中生成的日志文件:
LOG文件
LOG文件

三、结语

本软件首次发布于公众号 “老男孩的平凡之路”,仅用于学术交流、技术探讨等用途,严禁用于商业用途,欢迎在遵守相关规则和法律法规的前提下进行交流探讨!

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、背景阐述
    • 1.0 爬取目标
    • 1.1 演示视频
    • 1.2 软件说明
  • 二、代码讲解
    • 2.0 关于接口
    • 2.1 爬虫采集模块
    • 2.2 cookie 获取
    • 2.3 软件界面模块
    • 2.4 日志模块
  • 三、结语
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档