作为一个Python界的精英程序员(自夸一波),上班时间总是辗转反侧,三点一线。好不容易到了周末放假时间,也好像没有去外面逛逛的想法,一个人的生活就是这样子。怪我大学开始就不泡学妹,泡电脑,到现在还不懂对象的意思,就知道面对对象编程......
现在每次回家最怕的就是老母亲说该找个对象了,我的对象就是Python,因为现在的女生都是“在市中心有个房子我就嫁”......月光族高攀不起。
与其它从事编程语言工作的朋友一样,我这个Python小精英也是休假就打开电脑,逛博客看看技术大牛的分享来学习新技术,或者说看看电影。这不,各种电影都要充值会员才能看,我的原则是该省的必须省,而且这是个锻炼我Python技术的机会。
开始,我也就想着利用Python爬取一些兴趣相关的电影看,后来......我把代码加精,写了个类的代码,可以爬取任何你想看的电影资源包括什么你们都懂......以至于现在走路都走不稳,脚软。
赶紧上Python教程,不然我知道我要被挨打了。对于此教程,能上车的朋友(能看懂的),请节制。
首先下载流式文件,requests库中请求的stream设置成为True即可。
随机找一个视频地址看看情况:
失败了,出现报错:AttributeError: __exit__
意思就是没有能够实现需要的__exit__方法。我们的目的即必须要让 r 最后关闭用来释放连接池,利用contextlib中的closing特性即可:
run启动程序,然而却发现文件大小从未改变,无法估计已经爬取到了多少内容,所以我们要让Python爬取到的内容立即保存到我们的硬盘,这样也可以保证内存整洁:
内容飞速的变多,心疼我的硬盘......最后一次写入硬盘,程序中记个数即可:
成果:
最后,我写了个类,方便爬取其它网页的内容......
Python源码:
运行代码:
下载线程获取url:
代码中含判断语句避免重复下载,到此教程结束。
领取专属 10元无门槛券
私享最新 技术干货