温馨提示:文本由机器自动转译,部分词句存在误差,以视频为准
00:01
哈喽,大家好,这是我本人独立开发的抖音采集软件,那作用是把抖音博主的这些发布的数据给它采集下来,那比如说这这是抖音的其中一某一个博主,那他这些发布了很多的这个视频数据,我们就通过软件自动化的批量的把这些视频数据给它采集下来,那好,我们现在进行一个软件的演示,那这个软件界面上需要填入这个cookie和发起目标,我们先看发起目标,那我这里随便找了几个,呃,博主的是主页,把这个主页链接填到软件上,那这是三个,呃,用户的主页链接,那个人cookie,在浏览器的开发者模式里找到这个cookie,把它复制下来,粘贴到软件上。啊,这里有一个前几页啊,如果代填负一代表他去所有的呃视频数据,那这里由于时间的关系,我把它啊设置为他取前5页吧,好点击开始运行,那这个时候软件就开始采集抖音的数据了,从这个日志打印上我们能看到爬取爬取进度,呃,现在正在爬第2/3个博主,到第三页第5页,好,现在正在爬第3/3个博主。
01:40
到第3页。第4页第5页好,这个时候软件提示啊,全部博主已排取完毕,请查看结果,抖音博主视频。5038结尾的这个CSV啊,我这里按修改时间倒序排列这个5038结尾的CSV,我们打开看一下。
02:03
啊,那这就是采集的最终结果啊,第一列页码,第二列作者昵称,第三列呃,作者的UID,第三列呃,下面是赛UID,那在下面是根据这个赛克UID拼接出来的作者的链链接,那这个链接就是刚才我们浏览器上的主页链接啊,下面是作者的粉丝数,下面是呃,视频的标题,下面是视频的标签,那这个标签呢,其实就是标题里面这个带井号的部分给它提取出来啊,作为一个文本处理把它提取出来了。那下面是视频的链接啊,那这些这个视频的链接就是网页端的标准的啊视频链接格式,下面是视频的发布时间啊,这也是标准的时间格式啊,下面是是否置顶,那我们知道有些博主他会在呃前前一个或者前三个视频做一个置顶,那这里可以标识出来,那后面是视频的点赞数,评论数,收藏数,转发数,那我们来随便抽一个验证一下这个结果是否准确,比如说这个视频啊。
03:27
啊,他的视频标题是偷看男友手机啊,偷看男友手机标签是那个过于真实,猫咪咪情侣啊,这个也是对的啊,视频链接发布时间是5月8号10:52 5月8号10:52,点赞数1260,评论数21。收藏数163,转发数151啊,这个都是能对对得上的啊,所以这个软件的排序结果还是比较准确,那我们再来看一下。
04:08
呃,在同级目录下还有一个logs文件啊,今天是5月17号啊,它记录了刚才软件运行的整个过程。啊,方便,如果有问题方便回溯。好,这个就是软件的一个演示过程,谢谢大家,我们下次见。
我来说两句