爬虫笔记（二）：爬虫相关模块介绍

文章来源：企鹅号 - java爬坑之道

Request包介绍

下面就只介绍requests.get()方法，其他的post()、put()、delete()用法瞄一瞄源码就差不多了，get()方法的源码，简单翻译一下

在get()方法定义中我们可以看到一个可变参数，在Pychram中选中这个参数，按F12就能看相关配置参数的定义了；这里的参数很多，我也就不一一列举了，我就列两个常用的就行。

headers

在这个参数中我们常配置一个User-agent属性，一些网站常常通过判断User-agent 来给不同的操作系统、不同的浏览器发送不同的页面，所以为了让我们的爬虫更像是用户通过浏览器来访问的，就需要配置一下这个属性。百度上一搜，就能找到一大堆各个不同浏览器的User-agent，copy一个用就行

proxies

设置IP代理，一般网站都不欢迎爬虫，当我们的爬虫过于频繁去访问网站的页面时，可能就会被网站封锁IP，无法访问网站信息，那么这时我们就需要一个IP代理。网上能百度到一大堆免费IP的(只是大部分用不了啊,尴尬！！！)

可以多搞几个可用的IP，每次请求时从代理池中随机抽一个

BeautifulSoup包介绍

一个灵活又方便的网页解析库，处理高效，支持多种解析器。可以实现网页信息的抓取

解析器

用来解析网页页面的元素，BeautifulSoup支持多种html解析器，这里不讨论各个解析器的区别了，因为我也不懂，百度上找大神吧！咱们就用python自带的解析器吧————html.parser

上面的介绍三种BeautifulSoup的提取方式，自行选择一种熟悉，基本就能提取网页上大部分内容了。为啥不是全部呢？？？？O(∩_∩)O哈哈~

部分内容可能需要用到正则表达式，这部份我也不懂，只知道怎么用正则表达式，至于怎么写出正则表达式，百度呗！！

另外有部分贼恶心的网站，对页面的一些文字或者数字做了处理，用图片/图标替换了，哎！！！这种就不好办啊！！！

相关快讯