00:00
人生苦短,我用Python,各位小伙伴大家好,这是我用Python开发的一个YouTube评论的爬虫软件,那我们来看一下,运行一下,首先我先进入到终端。先查看一下当前的环境,看list,那这里我创建了一个Youtube comment的,呃,看到环境,首先激活这个环境。那我们看到进已经进入了这个环节,然后用这个开来运行这个爬虫爬冲代码。那我们看到这样,就弹出了这个软件的界面,来爬一下这个菲力这首歌曲的Youtube to评论,那它的视频ID就是地址栏里V等于后面这个ID就是它的视频ID,那么来放到这个地方。
01:09
让后排取数量,那我们选择前100条排序方式,这里选择按日期排序好开始执行。我们看到程序已经在运行了,你爬一条评论,前面有一个序号,那提示用户现在爬到多少条了,那最后它会输出这样一个Excel文件,我们点退出程序,我们来看一下这个文件。好,我们看到第一列是评论的ID号,第二列是评论内容,第三列是评论的时间,那这个时间是一个相对时间,我后面把它做了一个转换啊,转换成了这个绝对时间,这样就。
02:01
很方便后面的数据处理,那这里是询问的作者的ID。啊,评论的作者的频道ID,那这里是点赞数,那我们跟着。把这个数据和前台页面对照看一下,看看是否他去的是否正确,由于我刚才选择的排序方式是按日期排序。那所以这里选择最新评论。那我们对照看一下,第一条join me join me, 第二条would give give, 第三条it should it should, 第4条I love the song, 第5条一个点啊,基本上都是能对应上的,那也就是说这个评论。是正确的,这个推送它里的数据是正确的。那下面我再演示一下他去另外一条视频的评论,那就是李子柒的这个播放量最高的这条评论这个视频,那同样我们把视频ID拿下来。
03:15
那再次运行这个软件。把这个视频地粘到这儿来,这次发起数量我们选择300条啊500条了,那这次我们选择按热门排序,就不按日期排序了,好开始执行。好,现在程序已经开始运行了,每发取一条评论,前面是有一个序号提示。提示用户目前爬取的进度。
04:49
好的,现在程序执行完成了,已经输出的结果文件,这个Excel文件我们退出程序啊,看一下这个结果文件,那就是这个文件我们打开看一下。
05:02
那同样我们对照着页面看一下它这个爬取是否准确呢。那刚才我们选择的是按热门排序,那它YouTube网页上默认的就是按热门排序,所以这里不能变啊,直接对比数据,好第一条5分56秒,谁tried to, 谁try to, 这样是就是对上的啊,是评论时间是四年前four years ago order.An Mol啊,这也是能对上的,然后这个点赞数是646啊,也是对上的。好,我们继续看下一条按人文排序的第二条,I was always, 然后第二条也是对上的,然后评论时间是3天前啊,Three days ago.然后点赞数是25啊,MOS是25啊,也是对上的,然后我们看第三条EU ES sus啊,评论时间是两周前啊,Two weeks ago.
06:14
Order是DA an DA于an也是对的,那点赞数是35,点赞数35,好,这个都是能对上的,所以呢,这个软件他取的数据还是比较精准的,那这里再说明一点就是。这个软件是根据指定视频的ID,那视频的ID呢,就是从Youtube b任意打开一个视频,然后在地址栏里watch是问号,V等于等号,后面这一串就是视频的ID,想把哪个视频I视频的评论就把这个ID放到这个软件界面上来,然后排取数量,这里可以任意指定,那如果是负一,默认是负一,负一就代表排取全部,或者你任意指令它的数量三百三千等等啊,不要超过它的最大数量,然后排序方式按日期排序和按热门排序,那这里就对应页面上这个排序方式,热门评论和最新评论,所以这个软件支持的功能就有,就有这些,然后最后输出一个Excel文件。
07:29
那同时再说明一点,我现在是在我的Mac电脑呃,上演示的这个软件,那我是直接用Python运行的这个PY文件把它调用起来的,那我同时还在Windows电脑把它封装成了一个exe软件啊,直接双击打开就能使用,不需要你的电脑上有任何的Python环境,那这样就方便不懂技术或者是不会运行Python代码的人就直接可以使用,双击打开就能使用。那最后再说一点,运行这个软件的前提啊,就是这个啊,这个我就不讲了,大家都懂的好,谢谢大家,我们下次再见。
我来说两句