首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Python语言:爬取豆瓣电影排行前250名

长恨人心不似水,等闲平地起波澜

——侃爷

上次给大家讲了一下爬虫模拟登陆天眼查网站,今天给大家讲一讲爬虫爬取豆瓣影评前250名电影信息。

作为一个爱看电影,但是也说不出啥电影来的小伙子,学爬虫时候学的第一个程序就是爬取豆瓣影评排行榜前250个电影。

so,今天给大家展示这个。

首先,主要用到了两个扩展包,一个是requests,这个主要是用来发送网页请求的。然后bs4包里面的BeautifulSoup函数主要用来解析网页html,然后可以得到html里面想要的信息。

先看一下网页,网页长得下面这样。网址是:https://movie.douban.com/top250。

在网络爬虫中,很重要的一点,就是分析网络结构,和要爬取的信息的各个网址的格式,这里比较简单,浏览几个网页可以发现,需要爬取的电影信息在网址中,每个页面含有25个电影信息,一共有十个网页。可以发现,在进入第十页之前“后页”是一直有的,而在第十页“后页”是处于灰色状态。

看网页源码可以知道,在之前网页源码“后页”是这样的

而到了第十页,这里则是

对比这两个网页源码,可以知道,只要可以在这里找到标签,则存在后页,否则不存在。

到这里基本对网页情况和判断条件有几本的了解了,那就很好理解程序了

那就开始程序部分吧,先加载需要的包

然后给出初始网址:

接着就先一步步来吧,先看看main函数部分

在main函数部分用到了两个函数,一个是解析网页的download_page函数,首先看这个函数,这个函数其实很简单,就是一个request函数的直接返回

然后main函数里面还有一个parse_html函数,这个函数则是解析html,然后获得想要的网页信息

到这里程序就写完ok啦,直接看运行结果吧。运行结果就是下面的这样,自动创建了一个movies文件,然后里面存放了电影名,当然这里只截取了一部分,一共就有250个电影名在这里了。不知道看啥电影的时候,就可以多看几遍这些经典电影,第三个电影这个杀手不太冷,这个电影恐怕我是看了四五遍了,好看的电影真的是怎么看都觉得有意思。

我们下次再见,如果还有下次的话!!!

【新浪微博@516数据工作室

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20171220G0ZMSI00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券