Request包介绍
下面就只介绍requests.get()方法,其他的post()、put()、delete()用法瞄一瞄源码就差不多了,get()方法的源码,简单翻译一下
在get()方法定义中我们可以看到一个可变参数,在Pychram中选中这个参数,按F12就能看相关配置参数的定义了;这里的参数很多,我也就不一一列举了,我就列两个常用的就行。
headers
在这个参数中我们常配置一个User-agent属性,一些网站常常通过判断User-agent 来给不同的操作系统、不同的浏览器发送不同的页面,所以为了让我们的爬虫更像是用户通过浏览器来访问的,就需要配置一下这个属性。百度上一搜,就能找到一大堆各个不同浏览器的User-agent,copy一个用就行
proxies
设置IP代理,一般网站都不欢迎爬虫,当我们的爬虫过于频繁去访问网站的页面时,可能就会被网站封锁IP,无法访问网站信息,那么这时我们就需要一个IP代理。网上能百度到一大堆免费IP的(只是大部分用不了啊,尴尬!!!)
可以多搞几个可用的IP,每次请求时从代理池中随机抽一个
BeautifulSoup包介绍
一个灵活又方便的网页解析库,处理高效,支持多种解析器。可以实现网页信息的抓取
解析器
用来解析网页页面的元素,BeautifulSoup支持多种html解析器,这里不讨论各个解析器的区别了,因为我也不懂,百度上找大神吧!咱们就用python自带的解析器吧————html.parser
上面的介绍三种BeautifulSoup的提取方式,自行选择一种熟悉,基本就能提取网页上大部分内容了。为啥不是全部呢????O(∩_∩)O哈哈~
部分内容可能需要用到正则表达式,这部份我也不懂,只知道怎么用正则表达式,至于怎么写出正则表达式,百度呗!!
另外有部分贼恶心的网站,对页面的一些文字或者数字做了处理,用图片/图标替换了,哎!!!这种就不好办啊!!!
领取专属 10元无门槛券
私享最新 技术干货