# python爬虫
爬虫四部曲
1. 向服务器发生request(post/get)2.服务器响应,返回response3.从response中解析出我们需要的内容4.将解析的内容保存到文件/数据库
python中的 库是很方便用于处理请求和响应的库。同时 库又能让我们很好的处理正则表达式。
今天实现了一个爬去猫眼电影top100榜单,总体上还是很简单的,通过代码重温一下实现过程。
request & response
首先,通过get函数发送一个get请求,headers是请求头,在这里,如果没加请求头,服务器会拒绝我们的访问。然后,我们读取到response中的text内容,也就是网页的html代码,它是一个str类型的。当然,这里需要try-catch一下,涉及网络部分异常经常需要处理,这个 RequestException是一个异常父类。
正则表达式匹配
以下为猫眼电影每个电影块的html框架,我们很容易可以根据这个去获取到我们想要的电影信息,当然也就是靠正则去匹配了。
解析html源代码
保存爬取到的信息到文件/数据库
根据猫眼电影排行榜的网址 ,我们很容易发现 就是我们需要改变的一个偏移量。OK,剩下代码如下。
python中的Pool()函数支持多线程,爬取的速度明显比单线程快,但是多线程不能保证爬取到的电影信息正好是按照rank排列的吧。所以,我个人觉得还是单线程吧。 :-)
领取专属 10元无门槛券
私享最新 技术干货