温馨提示:文本由机器自动转译,部分词句存在误差,以视频为准
00:00
大家好,这是我用Python开发的小红书采集软件,那作用是根据小红书的关键词采集小红书的详情数据,包含笔记的内容正文,呃,转赞、评论、转发等等,相当于我往期前面开发的软件的结合版啊,大家可以看一下往期的介绍,那我下面打开这个软件界面,快速进行演示,软件界面上需要填入cookie的选项和关键词等筛选条件,那我们打开小红书的网页端。随便搜索一个关键词,打开开发者模式啊,往下拉这个搜索结果,我们看到这个notes开头的,呃,目标链接,呃,进入cookie这一项,我们可以看到下面有ae和web session, 把ae的值粘贴到软件上来,把web session的值粘贴到软件上来。搜索关键词我们这里任意指定,比如说搜索小米,比如说搜索华为,比如说搜索苹果,那笔记类型这里选择,呃综合类排序方式我们选择,呃综合好开始执行。
01:17
那这个时候软件就开始进行小红书关键词笔记的爬取了,我们从这个运行日志上可以看出目前的爬取进度,现在正在采集小米这个关键词第一页的第8个笔记,第9个笔记。那它的采集速度基本上就是每条笔记呃,1秒左右的时间。那采集的结果就会自动生成一个CSV文件啊,大家可以看到这个按修改时间排序,这个这个CSV就是最新的结果,那由于时间的关系,我们就这里不再等待了啊,这个软件如果运行完的话,会自动采集小米、华为、苹果这三个关键词的所有笔记,那我这里直接点击退出程序,那我们看一下这个最新的生成结果,好,我们看一下这个结果。
02:16
这个关键词是刚才设计的,设置的三个关键词,那我中间停止了,所以它只有小米的啊,笔记的ID啊,根据笔记的笔记的ID可以拼接出笔记的链接,那下面是笔记的标题,那这是昨天晚上小米的发布会,所以它最新的采集结果排在了前面,笔记的内容,也就是笔记的正文,我们看。啊,这个正文比较长,那下面是笔记的发布时间,笔记的修改时间,这些都是标准的时间格式,笔记的IP属地,笔记的点赞数,收藏数,评论数,转发数。那下面是笔记的作者昵称,笔记的作者ID,以及根据笔记的作者ID拼接出的,根据作者的ID拼接出的用户的主页链接,那关键字段就是这些,那这是生成的结果,我们再看一下它生成的日志文件,在logs下面,今天是3月29号,所以打开这个日志文件。
03:24
那这里展示的就是刚才软件运行的整个过程,好,这就是软件的一个运行过程,我们下次见。
我来说两句