前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【爬虫软件】我用python开发的小红书蒲公英采集软件,支持筛选关键词、粉丝数、报价等,助力品牌商高效筛选优质博主!

【爬虫软件】我用python开发的小红书蒲公英采集软件,支持筛选关键词、粉丝数、报价等,助力品牌商高效筛选优质博主!

原创
作者头像
马哥小迷弟132
发布2024-07-01 08:00:35
650
发布2024-07-01 08:00:35
举报

一、背景分析

1.0 爬取目标平台

爬取目标: 小红书蒲公英
爬取目标: 小红书蒲公英

蒲公英平台(用过的人都知道^^,没用过的人一脸懵- -!),在此介绍一下:蒲公英是小红书推出的优质创作者商业合作服务平台,致力于为品牌和博主提供内容合作服务,可以为品牌匹配出最符合合作条件的优质博主。

蒲公英平台,需要有一定权限的企业资质账号才能申请开通(这也是为什么大部分用户不了解)。开通之后,进入【寻找博主->博主广场】页面,即可根据一定的筛选条件过滤出满足的博主列表,如下:

寻找博主页面
寻找博主页面

页面部分:上面是筛选条件,下面是筛选结果。

我用python开发的采集软件,核心爬虫功能分为2大类模块:第一是根据筛选条件爬取博主列表,第二是根据爬取到的博主id进入详情页面爬取详细数据,详情页如下:

某个博主的详情页
某个博主的详情页

通过分析网页接口,开发出了爬虫GUI软件,界面如下:

软件运行界面
软件运行界面

共爬取到34个字段,字段如下:

代码语言:txt
复制
1	关键词
2	页码
3	小红书昵称
4	小红书号
5	地址
6	机构
7	数据更新至
8	小红书链接
9	粉丝数
10	账号类型
11	图文报价
12	视频报价
13	合作笔记数
14	预估阅读单价_图文
15	图文3秒阅读
16	日常_阅读中位数
17	日常_互动中位数
18	日常_阅读来源发现页占比
19	日常_阅读来源搜索页占比
20	合作_阅读中位数
21	合作_互动中位数
22	合作_阅读来源发现页占比
23	合作_阅读来源搜索页占比
24	女性粉丝占比
25	年龄占比最多的
26	账号评估
27	合作笔记1阅读数
28	合作笔记2阅读数
29	合作笔记3阅读数
30	合作笔记4阅读数
31	合作笔记5阅读数
32	合作笔记6阅读数
33	合作笔记7阅读数
34	合作笔记8阅读数

详细演示数据:(看《蒲公英》这个sheet页)整理到腾讯在线文档了。

1.1 演示视频

软件操作演示视频:【软件演示】2024小红书蒲公英采集软件

1.2 软件说明

重要说明,请详读:

  1. Windows用户直接双击打开使用,无需安装Python环境,非常方便、适合小白!
  2. 需要在cookie.txt中填入cookie,实现持久化存储,方便长期使用
  3. 支持筛选笔记搜索关键词(笔记关键词和博主关键词不同,注意区分)、笔记类型(不限/图文笔记为主/视频笔记为主)、粉丝数量、图文报价、搜索页范围。其他个性化筛选条件,可以和我沟通定制,只要网页上有的都可以加入
  4. 爬取过程中,有log文件详细记录运行过程,方便回溯
  5. 爬取过程中,自动保存结果到csv文件(每爬一条存一次,防止数据丢失)
  6. 可爬34个关键字段,见1.0章节
  7. 以上爬取字段已经包含,如无法满足个性化要求,可定制开发(接口已调通) 以上。

二、代码讲解

2.0 关于接口

由于采集字段较多,开发者模式中分析接口不止一个,采集程序整合多个接口开发而成,归纳如下:

  1. 博主列表接口
  2. 日常笔记接口
  3. 合作笔记接口
  4. 粉丝数接口
  5. 阅读单价接口
  6. 合作笔记阅读数接口
  7. 所属机构接口

以上。

2.1 爬虫采集模块

软件开发成本较高,代码量大、实现逻辑复杂,为保护个人知识版权,防止恶意盗版软件,不展示爬虫核心代码

2.2 cookie获取

运行软件之前,需要填写cookie值到txt配置文件中,获取方法如下:

开发者模式中获取cookie
开发者模式中获取cookie

开发者模式是各大主流浏览器自带的、专为开发人员分析网站页面的实用工具,普通小白可能不熟悉界面使用,我可以提供一对一指导步骤^^

2.3 软件界面模块

tkinter是Python的内置标准GUI(图形用户界面)工具包。它提供了许多用于创建GUI应用程序的组件和工具,可以用来设计和开发用户友好的界面。tkinter是一个跨平台的工具包,是一个功能强大且易于学习和使用的GUI工具包,非常适合用来开发简单的桌面应用程序和工具。

主窗口部分:

代码语言:python
代码运行次数:0
复制
# 创建主窗口
root = tk.Tk()
root.title('蒲公英爬虫-公开版p1.4 | 马哥python说 | 定制')
# 设置窗口大小
root.minsize(width=850, height=650)

部分界面控件:(以搜索关键词为例)

代码语言:python
代码运行次数:0
复制
# 笔记关键词
tk.Label(root, justify='left', text='笔记关键词:').place(x=30, y=65)
entry_kw = tk.Text(root, bg='#ffffff', width=22, height=2, )
entry_kw.place(x=105, y=65, anchor='nw')  # 摆放位置

日志输出控件:

代码语言:python
代码运行次数:0
复制
# 运行日志
tk.Label(root, justify='left', text='运行日志:').place(x=30, y=250)
show_list_Frame = tk.Frame(width=780, height=300)  # 创建<消息列表分区>
show_list_Frame.pack_propagate(0)
show_list_Frame.place(x=30, y=270, anchor='nw')  # 摆放位置

2.4 日志模块

在软件开发过程中,日志是非常重要的工具,用于记录应用程序的运行状态、错误信息、调试信息以及其他相关信息。在故障排查、性能监控、跟踪程序运行情况方面有重要作用。同时这也是我的个人编程习惯^^

核心代码:

代码语言:python
代码运行次数:0
复制
def get_logger(self):
	self.logger = logging.getLogger(__name__)
	# 日志格式
	formatter = '[%(asctime)s-%(filename)s][%(funcName)s-%(lineno)d]--%(message)s'
	# 日志级别
	self.logger.setLevel(logging.DEBUG)
	# 控制台日志
	sh = logging.StreamHandler()
	log_formatter = logging.Formatter(formatter, datefmt='%Y-%m-%d %H:%M:%S')
	# info日志文件名
	info_file_name = time.strftime("%Y-%m-%d") + '.log'
	# 将其保存到特定目录
	case_dir = r'./logs/'
	info_handler = TimedRotatingFileHandler(filename=case_dir + info_file_name,
						when='MIDNIGHT',
						interval=1,
						backupCount=7,
						encoding='utf-8')

同级目录下生成的日志文件:

log文件截图
log文件截图

四、同步视频讲解

【软件演示】2024小红书蒲公英采集软件

五、首发公号

本文首发公号【老男孩的平凡之路】,欢迎交流、沟通!!

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、背景分析
    • 1.0 爬取目标平台
      • 1.1 演示视频
        • 1.2 软件说明
        • 二、代码讲解
          • 2.0 关于接口
            • 2.1 爬虫采集模块
              • 2.2 cookie获取
                • 2.3 软件界面模块
                  • 2.4 日志模块
                  • 四、同步视频讲解
                  • 五、首发公号
                  相关产品与服务
                  应用性能监控
                  应用性能监控(Application Performance Management,APM)是一款应用性能管理平台,基于实时多语言应用探针全量采集技术,为您提供分布式性能分析和故障自检能力。APM 协助您在复杂的业务系统里快速定位性能问题,降低 MTTR(平均故障恢复时间),实时了解并追踪应用性能,提升用户体验。
                  领券
                  问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档