00:00
哈喽,大家好,这是我用Python开发的抖音采集软件啊,主要是用来采集评论的,那么打开软件的界面看一下这个效果,首先进行软件的登录,那这是我上次的测试账号的登录记录,它自动记记下来了,那我直接点击登录按钮,那这个时候会提示这个账号的有效期啊,我们点击确定之后进入这个软件的主界面,那这个软件上呢,支持两种模式的评论采集啊,第一种是通过关键词。那我这里提前准备了一些关键词啊,通过关键词采集评采集作品,然后再自动采集作品下的评论,这是第一种模式,那第二种模式呢,就是通过作品的链接啊,比如说我把这些链接啊填到这个输入框里,它就会自动,然后再点击第二个按钮,它就会自动根据这些作品采集它下面的这些评论啊,当然也是可以设置一些评论的筛选项,那我们先进行第一种评论的采集,输入关键词之后发布时间,比如说我们这里选择半年内排序方式,我们这里选择综合排序,作品最大页,我这里选择前三页吧,然后评论的关键词,我们把这些意向用户的代表意向的关键词放到这里,然后IP属地,比如说我们选择。
01:33
就是3个地区的IP属地起始时间啊,我想看最新日期的这些用户的评论,那就把这个。时间设置上,评论最大页负一代表全部二级评论,我们这里先选择不包含啊,当然也它也支持二级评论的采集,采集最大量-1啊,也代表。啊,全部全部,比如说我们这里设置了30。
02:01
它就会采集30个只呃意向用评论之后它就会自动停止啊,我们点击第一个按钮,通过关键词采集。从下面的日志我们可以看到,这个采集进度,当前是劳力士第三页,当前是浪琴的第一页,浪琴的第二页,浪琴的第三页,欧米伽第一页,欧米伽第二页,欧米伽第三页。好,这个作品就采集完毕了,那这里进行了一个自动的去重操作,如果有重复的作品,它就会自动去重,那下面就开始采集评论数据了,那由于我这里设置的二级评论不包含,所以它只是采集了一级评论。我们从这个日志上可以看到,这个进度一共有172个作品,它采集到了第一个作品的第10页、第11页。
03:06
那这里有一个关键的日志,筛选后数据量1,那也就是说通过这些评论的筛选项之后,它采集到的目标评论现在是一条,那现在是两条了啊,从这个可以看到当前的采集进度,那现在是三条了,我们可以看一下这个文件夹里,那这个搜索的CSV是刚才搜索笔记生成的CSV,那这个评论的CSV是当前正在爬取的这个这个CSV当前筛选数据量是67,好,我们直接把它停掉,看一下这个采集结果,第一个搜索的CSV,那这是。一些作品的数据,这三个关键词下的作品数据,那下面是评论的CSV。
04:05
我们可以看一下。对照着这个软件界面啊,IP属地广东北京上海啊,都是广东北京上海下面的啊,这里是二级评论,不包含,所以下面都是一级评论,那评论的关键词是这些,那所以下面的这些评论内容都是包含这些关键词的,那由于我刚才直接点击了停止,所以它筛选后数据量现在是7,所以就爬去了前7条就停下来了,好,我们下在下面进行第二种评论的模式采集,就是直接通过作品链接进行采集,然后直接重新登录一下软件,点击登录进入界面,那这里通过作品链接进行采集,我直接把提前准备好的这些作品链接填入这个输入框里,那这这里这个地方要注意填入的是PC端的啊作品的链接,而不是手机端的那评论的关键词。
05:09
词,我们依然选择这些关键词,IP属地选择这三个起始时间仍然是10月1号到10月10号,那我们这里选择二级评论部啊,这次选择包含吧,那同样这些都选择默认选择,点击第二个按钮,共检测到6个带爬作品,现在开始爬的是第一个,那由于这里我选择的二级评论是包含,所以大家从日志上可以看到现在正在采集二级这个评论内容,也就是评论的回复评论,那这样的话,这个爬取效率就比较低了,因为二级评论它的请求次数比较多,呃,不像一级评论,一级评论固定的就是一页20条,那二级评论这个就不一定了,它需要展开多次,所以这个他取效率就相对来说有一点低了。
06:14
因为第一条笔记的二级评分比较比较多,所以他这个排去相对来说慢一点,所以我们看到现在这个啊,这个评论的CSV还没有生成,当然它生成最终结果和模式1的啊,现在已经生成了一个筛选后,数据量是2,那我们直接来看一下,把它停掉,我仍然对照着这个筛选项进行看一下,评论时间是10月1号到10月10号之间的,IP属地广东,北京,上海,它。爬到了两条,一个上海,一个广东,那我这里是选择的包级2包含二级评论,所以是啊,这是这里是两条二级评论,那评论内容呢,是包含这个关键词的两条评论,那由于刚才是筛选后数据量是2,然后我直接点了停止按钮,所以它直接拍到了两条,所以这就是整个软件的一个软演示过程啊,包含两种模式的评论采集。
07:22
好,谢谢大家,我们下次见。
我来说两句