温馨提示:文本由机器自动转译,部分词句存在误差,以视频为准
00:01
这是我用Python开发的party小红书指定博主的笔记的软件,我们首先打开这个软件界面看一下效果,那这个软件的界面就是这样的,界面上需要填入cookie的A1和web session这两项,还有爬取的目标用户。啊,我们首先打开小红书的网页端,先把这个账号登录上啊,这个必须要登录,然后任意选择一个博主的主页打开它。那打开开发者模式,选择XHR这个网络监测,往下翻这个用户的已发布笔记,我们可以看到有很多这个user posted, 呃,请求我们打开它选择cookie这一项啊,其中有A1和web session, 我们首先把A1的值复制下来,填入软件,把web session的值复制下来,填入软件,那爬起的用户链接,我这里提前准备了一些用户的主页链接啊,填写到软件上,点击开始执行,那这个时候。
01:13
软件已经开始扒取这些用户的发布笔记了。那从这个软件的运行界面上,我们可以看到一共有9个博主,呃,现在已经爬到第4个了,4/9。软件爬取完毕之后,会自动生成一个CSV文件啊,保存了这些笔记的数据啊,稍后我们来看一下这个爬取结果。哦,现在已经爬到了8/9,还剩下一个博主。
02:01
好,现在已经开始爬第9个博主。啊,这个时候软件提示全部博主已扒取完毕,请查看结果,小红书博主视频4516结尾的CSV,那我们打开文件夹啊,4516结尾的CSV。那我来设置一下这个Excel格式,那作者昵称啊,就是这9个博主啊,作者的ID啊,作者的主页链接啊,这个ID和链接是一一对应的啊,这个笔记的页码。啊,笔记的标题。然后是笔记的ID。然后是笔记的链接。
03:02
然后是笔记的类型,分为图文类和视频类,以及笔记的点赞数。那我们随便打开一篇笔记啊,检查一下这个效果是否正确,比如说第一篇把这个笔记链接粘贴到浏览器里啊,它的作者是星星高情商啊,星星高情商笔记标题高情商回复领导借1万,领导借1万啊,点赞数是1.5万,点赞数是1.5万啊,所以这个啊排解的结果还是比较准确。那这是生成的结果数据,那与此同时呢,在这个当前文件夹还会生成一个logs文件啊,里面是记录的日志,那今天是2月28号,那就打开28号这个logo文件,那这里记录的就是刚才。软件运行的全部过程啊,方便问题的追溯,好这就是软件的一个爬取效果,那我们下次见。
我来说两句