00:01
这是我用Python开发的根据小红书的关键词采集笔记的软件,我们先打开这个软件,看一下这个界面,那软件的界面就是这样的。呃,把cookie中的A1和web session填进去,然后输入搜索关键词,那这里搜索关键词支持多个关键词同时采集笔记类型可以采集综合类、视频类、图文类,排序方式可以是综合最新和最热,那这两个筛选条件是跟网页上是一致的,那我们来填入。这些信息首先打开小红书的网页端啊,先把账号登录上,这个必须要登录,然后打开开发者模式网络XHR,我们随便搜一个关键词,往下翻这个搜索结果啊,看到这个notes开头的这条目标链接,我们打开其中打开cookie这一项,那它里面我们可以看到有ae,有web session, 我们这个把这个值给它复制下来,粘贴到软件上。
01:18
把web session复制下来,粘贴到软件上啊,搜索关键词,呃,我们这里啊搜索一下,比如说华为手机啊,比如说在搜索一个note mate啊,在搜索一个苹果手机,那么笔记类型我们选择视频类吧,排序方式我们选择最新好开始执行。那这个时候这个软件就开始运行了,那运行的过程当中,它会不断的跳出这个黑色窗口来,这个我们忽略掉啊,先不关心,我们可以看到这个日志正在刷新,它正在爬取。
02:07
那我们看他已经把关于手机关键词的扒取完了,现在开始爬取mate关键词,我们从这个日志可以看出来。等爬取完了之后,会自动生成一个CSV表格数据,我们来稍后看一下,好,Mate关键词已经爬取完了,现在正在扒取苹果手机这个关键词。
03:07
好,最后一个关键词也扒取完了,我们看到软件界面最后提示了全部关键词笔记已爬取完毕,那看到这个提示就证明这个软件已经运行结束了,我们来看一下这个爬取结果,它会生成一个小红书搜索时间戳的CSV文件,我们打开这个CSV。那它的爬取字段分为关键词,也就是刚才搜索的这三个关键词,呃,页码,我们看到每个关键词都是爬取的,前11页笔记D,那根据笔记ID可以拼接出笔记的链接,那笔记的标题啊,我们可以看到这些就是标题,就是包含关键词的标题,那笔记类型我们看全部都是视频类的,因为我刚才筛选的就是视频类的,那点赞数,用户ID,那用户ID根据用户ID就可以把用户的主页链接拼接出来,那用户的昵称,那我们同时也来验证一下这个扒窃结果。
04:28
是否准确呢?我们随便找两个啊笔记链接,把它放到浏览器里来打开,它的标题是用了两年的华为手机啊,用了两年的华为手机啊,它的点赞数是4,作者是三个数码,三个数码啊,点赞数是4,那我们再来抽一条啊,这个这条笔记标题是大家中午好,来自华为mate。
05:06
啊,大家中午好,来自华为mate视频类点赞数是1,作者是3核华为3和华为点赞数是1啊,所以我们看到这个爬起结果还是比较准确的。那生成这个结果数据的同时呢,在log的目录下也会自动生成一份日志文件,方便查询定位,那今天是12月13号,我们就打开这个文件,那这里就是刚才运行搜索结果的全部的日志文件,如果软件出现各种问题,可以方便的快速定位出原因来,好,这就是这个软件的一个演示,我们下次见。
我来说两句