00:00
大家好,这是我用Python开发的一个小红书蒲公英平台的数据采集软件啊,这是采集软件,那我是为了演示的方便啊,对照着左边是网页,右边是软件,那大家实际使用的时候是不需要打开这个网页的,直接运行软件就可以啊,那我这里采集的数据呢,是根据这些筛选条件啊,PARTY9下面这些博主的啊,具体信息啊,比如说粉丝量啊,这这里是网页上的粉丝量啊,那我做到软件里来了啊,粉丝量一个数据范围啊,比如说这个图文报价啊,这里合作报价里边有一个图文的啊和视频的啊,那我这里筛选的图文的啊在这里,那也就是说相当于啊,等效于这个软件上的这个图文报价这个地方,那搜索页的范围啊,这是每一二十个波主啊,这个就是模拟的这个搜索结果,那我们可以看到这个搜索,搜索页上可以设置每页多少条结果,然后这是哪一页啊,那我这里。
01:00
设置了搜索页笔记关词关键词啊,也就是啊,这个地方的笔记关键词啊,当然也可以不填,不填的话就是默认没有关键词啊,就派去全部播主。那我这里进行一个演示,比如说呃,笔记关键词,我这里搜索穿搭,那这个笔记类型呢,我们选择啊图文图文笔记啊,粉丝数量啊,比如说我这里设定为啊3000个3000~8000粉的博主啊,图文报价啊,我这里设定为比如说1呃100~500。啊,搜索页范围,那我这里设置前50页吧。呃,好,点击开始运行。那这个时候软件就开始采集这个。呃,小红书博主博主数据了啊,我们可以看到。
02:05
这个日志打印上已经开始扒取第1/50页啊,第一页的第4个博主,第5个博主。那当这个软软件运行完了之后,会在当前目录下啊,生成一个这个CSV文件,我们看这个软件运行的提示,CSV已保存蒲公英博主202406151700结尾的这个CSV啊,我修改时间倒序排列,那也就是这个CSV,它正在往这个CSV里写入数据。啊,那这个由于时间的关系,我们就不再等待了啊,我们直接打开这个CSV看一下爬取效果。好,我们来看一下这个爬去结果。
03:01
那我们来看一个数据比较全的结果吧。这个有好。有合作阅读数的这个。啊,比如说这条结果。那我们对照着网页来看一下啊,他的昵称叫明星穿搭收藏家,我们来搜一下这个博主。啊,我们点开它的主页详情页啊,来对照着看一下小红书号,这个29754结尾啊,297454结尾地址是重庆啊重庆机构是无机构啊无机构。数据更新制啊,这个先忽略啊,这个还没有实现,那小红书的链接我们看一下3268结尾啊,复制主页链接看一下啊,3268结尾,那这个就是他的小红书的个人主页。
04:05
好粉丝数34433443。账号类型属于时尚。啊,属于时尚。我们接着往下看,图文报价是300啊,图文笔记一口价300,视频报价180。神人笔记一口价180,合作笔记数5,那我们来看一下,在这个笔记案例下面有一个合作笔记。1234。好,这个是4。预估阅读单价图文1.23。
05:01
啊,预估阅读单价,图案1.23元每个阅读。那图文3秒阅读77.9啊,我们来看一下啊,我直接搜索一下图文三秒阅读77.9%啊,这个也是对的,日常阅读中位数。我们来看一下409,呃,日常笔记的阅读中位数是409。啊,日常互动中位数啊,31啊,这个是30啊,稍微有点误差,日常阅读来源发现页占比。日常阅读发现页占比86.3%啊,0.863,日常阅读来源搜索页占比0.069,搜索页占比6.9%啊,这个也是对的。
06:05
我们接着看合作笔记的阅读中位数,合作笔记的阅读中位数是92。92、合作笔记的互动中位数11和11。合作笔记的阅读来源发现页占比17.6%。我做笔记的。阅读来源搜索页占比31.2%啊,这个也是对的,女性粉丝占比我们往下翻。啊,女性粉丝占比97.79%。啊,这个也是对的,年龄占比最多的啊,是25岁到34岁啊,这个也是对的,占比47.68%。47.7啊,对的账号评估是优秀,那这个是在。
07:05
这个地方啊,正好评估结果该博主健康等级优秀,那我们看合作笔记,这里是前8个笔记的阅读数,那我们看。合作笔记。阅读数第一个笔记82,阅读数第二个笔记92。第三个笔记207阅读数,第4个笔记2208阅读书好,这些都是对的啊,后面没有没有其他笔记了,我们接着往后看啊,后面就没有了啊,这个是,所以我采集的这些字段是就是我刚才介绍的这些字段,那这些呢是啊,之前定制的一位客户,他提到的比较重要的一些字段,当然这些这个网页上的其他数据也可以进行采集啊,大家如果有定制需求,可以直接联系我。
08:05
如果这个软件上的这些字段已经满足要求,那就可以直接获取了啊,就不需要再定制了,好,这个就是这个软件的一个介绍,谢谢大家,我们下次见。
我来说两句