Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >爬虫课堂(十五)|Request和Response(请求和响应)

爬虫课堂(十五)|Request和Response(请求和响应)

作者头像
黄小怪
发布于 2018-05-21 09:31:51
发布于 2018-05-21 09:31:51
2.5K02
代码可运行
举报
文章被收录于专栏:小怪聊职场小怪聊职场
运行总次数:2
代码可运行

Scrapy的Request和Response对象用于爬网网站,在介绍Scrapy框架原理之前先具体讲解下Request和Response对象。

通常,Request对象在爬虫程序中生成并传递到系统,直到它们到达下载程序,后者执行请求并返回一个Response对象,该对象返回到发出请求的爬虫程序,如下图15-1所示。

图15-1

一、Request对象

一个Request对象表示一个HTTP请求,它通常是在爬虫生成,并由下载执行,从而生成Response,它的构造器方法的参数列表如下:

Request(url, callback, method='GET',headers,body,cookies,meta,encoding='utf-8',priority=0,dont_filter=False,errback)

下面依次介绍这些参数。

1、url(bytest或str类型,必选) 

此请求的网址。

2、callback(Callable类型)

Request对象请求的页面下载完成后,由该参数指定的页面解析函数被调用。如果请求未传递该参数,默认调用Spider的parse()方法。请注意,如果在处理期间引发异常,则会调用errback(见下方)。

3、method(str类型)

此请求的HTTP方法,默认为’GET’。

4、meta(dict类型)

Request的元数据字典,用于给下一个函数传递信息。把需要传递的信息赋值给这个叫meta的变量,meta只接受字典类型的赋值,把待传递的信息改成“字典”的形式,即:meta={'key1':value1,'key2':value2},如果想在下一个函数中取出value1,只需得到上一个函数的meta'key1'即可,因为meta是随着Request产生时传递的,下一个函数得到的Response对象中就会有meta,即response.meta,取value1则是value1=response.meta'key1'。

5、body(bytest或str类型)

HTTP的请求体。如果 body没有给出,则存储一个空字符串。

6、headers(dict类型)

这个请求的头。dict值可以是字符串(对于单值标头)或列表(对于多值标头)。如果 None作为值传递,则不会发送HTTP头。比如{'Cookie':None'}表示禁止发送Cookie

7、cookie(dict或list类型)

请求cookie。

8、encoding(str类型)

此请求的编码(默认为’utf-8’),此编码将用于对URL进行百分比编码,并将正文转换为str(如果给定unicode)。

9、priority(int类型)

此请求的优先级(默认为0)。调度器使用优先级来定义用于处理请求的顺序。具有较高优先级值的请求将较早执行。允许负值以指示相对低优先级。

10、dont_filter(boolean类型)

表示此请求不应由调度程序过滤。当您想要多次执行相同的请求时忽略重复过滤器时使用。小心使用它,或者你会进入爬行循环。默认为False。

11、errback(callable类型)

如果在处理请求时引发任何异常,将调用的函数。这包括失败的404 HTTP错误等页面。它接收一个Twisted Failure实例作为第一个参数。有关更多信息,请参阅使用errbacks在请求处理中捕获异常。

虽然参数很多,但除了url参数之外,其他都有默认值。一般情况下,我们只需要设置url和callback参数,代码如下:

scrapy.Request("https://www.baidu.com/",callback=self.parse_page2)

当然,在处理一些反爬问题时我们会设置其他的值,这个在后面章节详解。

二、Response对象

一个Response对象表示一个HTTP响应,Response只是一个基类,根据响应内容的不同有不同的子类:TextResponse、HtmlResponse、XmlResponse。

它的构造器方法的参数列表如下:

Response(url, status=200, headers=None, body=b'', flags=None, request)

1、url(str类型)

HTTP响应的URL。

2、status(int类型)

响应的HTTP状态,默认为200。

3、headers(dict类型)

HTTP响应的头部,dict值可以是字符串(对于单值标头)或列表(对于多值标头),可以调用get或getlist方法进行访问,如下:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
 response.headers.get('Content-Type')
 response.headers.getlist('Set-Cookie')

4、body(bytes类型)

HTTP响应体,如TextResponse。

5、flags(list类型)

是一个包含属性初始值的 Response.flags列表。

6、request(Requestobject类型)

属性的初始值Response.request,这代表Request生成此响应。

三、Response响应子类

前面提到过,根据响应内容的不同有不同的子类,包括TextResponse、HtmlResponse、XmlResponse。下面以TextResponse为例详情讲解下它更多的参数。

1、TextResponse对象

class scrapy.http.TextResponse(url[, encoding, ...])

TextResponse除了标准对象之外,对象还支持以下属性:

text

响应体,如unicode。

同样response.body.decode(response.encoding),但结果是在第一次调用后缓存,因此可以访问 response.text多次,无需额外的开销。

注意:unicode(response.body)不是一个正确的方法来将响应正文体转换为unicode,而是使用系统默认编码(通常为ascii)。

encoding

包含此响应的编码的字符串。

selector

Selector对象用于在Response中提取数据,具体更加详细的内容会在后面的章节讲解。

xpath(query)

使用XPath选择器在Response中提取数据,更多内容访问爬虫课程(八)|豆瓣:十分钟学会使用XPath选择器提取需要的元素值

css(query)

使用CSS选择器在Response中提取数据,它的快捷方式为

TextResponse.selector.css(query):response.css('p')

具体更加详细的内容会在后面的章节讲解。

urljoin(url)

用于构造绝对url,当传入的url参数是一个相对地址,根据response.url计算出相应的绝对url。比如,response.url为https://www.jianshu.com/,url为p/5d19b49755f0,使用response.urljoin(url)的结果就是https://www.jianshu.com/p/5d19b49755f0。

简写为response.urljoin(url),实际上是response.urljoin(response.url, url)

同样的,Response参数也有很多,但在爬虫中使用最多的主要是最后的三个:xpath(query)、css(query) 和urljoin(url)。

实际上,这三个参数在前面的实战章节中已经使用过,现在是做一个整体回顾和整理。

四、后话

现在有了这些基础,接下来要讲的就是Scrapy的框架结构及工作原理。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2018.03.17 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
爬虫系列(14)Scrapy 框架-模拟登录-Request、Response。
通常,Request对象在爬虫程序中生成并传递到系统,直到它们到达下载程序,后者执行请求并返回一个Response对象,该对象返回到发出请求的爬虫程序。
野原测试开发
2019/07/10
1.6K0
爬虫系列(14)Scrapy 框架-模拟登录-Request、Response。
Scrapy 中 Request 对象和
Request 对象 Request构造器方法的参数列表: Request(url [, callback=None, method='GET', headers=None, body=None,cookies=None, meta=None, encoding='utf-8', priority=0,dont_filter=False, errback=None, flags=None]) 各参数说明: url(必选) 请求页面的url地址,bytes或str类型。 callback 页面解析函数
py3study
2020/01/17
7380
网络爬虫框架Scrapy详解之Request
Request类是一个http请求的类,对于爬虫而言是一个很重要的类。通常在Spider中创建这样的一个请求,在Downloader中执行这样的一个请求。同时也有一个子类FormRequest继承于它,用于post请求。
Python中文社区
2018/08/08
8980
Python:Resquest/Response
Request Request 部分源码: # 部分代码 class Request(object_ref): def __init__(self, url, callback=None, method='GET', headers=None, body=None, cookies=None, meta=None, encoding='utf-8', priority=0, dont_filter=False, errback=
Lansonli
2021/10/09
4190
scrapy0700:深度爬虫scrapy深度爬虫
爬虫程序,主要是用与数据采集处理的一种网络程序,在操作过程中针对指定的url地址进行数据请求并根据需要采集数据,但是在实际项目开发过程中,经常会遇到目标url地址数量不明确的情况,如之前的章节中提到的智联招聘项目,不同的岗位搜索到的岗位数量不一定一致,也就意味着每个工作搜索到的工作岗位列表页面的数量不一定一致,爬虫工程师工作可能搜索到了10页,Django工作有可能都索到了25页数据,那么针对这样的数据要全部进行爬取,应该怎么处理呢?答案就是:深度爬虫
大牧莫邪
2018/08/27
1.9K0
python爬虫----(scrapy框架提高(1),自定义Request爬取)
最近看scrappy0.24官方文档看的正心烦的时候,意外发现中文翻译0.24文档,简直是福利呀~ http://scrapy-chs.readthedocs.org/zh_CN/0.24/
lpe234
2020/07/27
7980
scrapy进阶开发(一):scrapy架构源码分析
其子类有HtmlResponse,TextResponse,XmlResponse
Meet相识
2018/09/12
2.5K0
scrapy进阶开发(一):scrapy架构源码分析
手把手教你用Scrapy爬虫框架爬取食品论坛数据并存入数据库
大家好,我是杯酒先生,这是我第一次写这种分享项目的文章,可能很水,很不全面,而且肯定存在说错的地方,希望大家可以评论里加以指点,不胜感激!
Python进阶者
2021/03/12
7950
手把手教你用Scrapy爬虫框架爬取食品论坛数据并存入数据库
Scrapy中response属性以及内容提取
headers :HTTP响应的头部, 类字典类型, 可以调用get或者getlist方法对其进行访问
小小咸鱼YwY
2020/06/19
2.4K0
【0基础学爬虫】爬虫基础之scrapy的使用
大数据时代,各行各业对数据采集的需求日益增多,网络爬虫的运用也更为广泛,越来越多的人开始学习网络爬虫这项技术,K哥爬虫此前已经推出不少爬虫进阶、逆向相关文章,为实现从易到难全方位覆盖,特设【0基础学爬虫】专栏,帮助小白快速入门爬虫,本期为自动化工具 Selenium 的使用。
K哥爬虫
2024/07/01
1810
【0基础学爬虫】爬虫基础之scrapy的使用
Scrapy_Study01
对于以上四步而言,也就是各个组件,它们之间没有直接的联系,全部都由scrapy引擎来连接传递数据。引擎由scrapy框架已经实现,而需要手动实现一般是spider爬虫和pipeline管道,对于复杂的爬虫项目可以手写downloader和spider 的中间件来满足更复杂的业务需求。
Echo_Wish
2023/11/30
2920
Scrapy_Study01
三、scrapy后续 LinkExtractorsrules Logging发送POST请求内置设置参考手册
CrawlSpiders 通过下面的命令可以快速创建 CrawlSpider模板 的代码: scrapy genspider -t crawl tencent tencent.com 我们通过正则表达式,制作了新的url作为Request请求参数,现在我们可以用这个... class scrapy.spiders.CrawlSpider 它是Spider的派生类,Spider类的设计原则是只爬取start_url列表中的网页,而CrawlSpider类定义了一些规则(rule)来提供跟进link的方便的机制
酱紫安
2018/04/16
2.1K0
Python scrapy 安装与开发
Scrapy是采用Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取采集web站点信息并从页面中提取结构化的数据。
阳光岛主
2019/02/18
1.3K0
Python scrapy 安装与开发
《Learning Scrapy》(中文版)第5章 快速构建爬虫一个具有登录功能的爬虫使用JSON APIs和AJAX页面的爬虫在响应间传递参数一个加速30倍的项目爬虫可以抓取Excel文件的爬虫总结
第3章中,我们学习了如何从网页提取信息并存储到Items中。大多数情况都可以用这一章的知识处理。本章,我们要进一步学习抓取流程UR2IM中两个R,Request和Response。 一个具有登录功能的爬虫 你常常需要从具有登录机制的网站抓取数据。多数时候,网站要你提供用户名和密码才能登录。我们的例子,你可以在http://web:9312/dynamic或http://localhost:9312/dynamic找到。用用户名“user”、密码“pass”登录之后,你会进入一个有三条房产链接的网页。现在的问
SeanCheney
2018/04/24
4.2K0
《Learning Scrapy》(中文版)第5章 快速构建爬虫一个具有登录功能的爬虫使用JSON APIs和AJAX页面的爬虫在响应间传递参数一个加速30倍的项目爬虫可以抓取Excel文件的爬虫总结
从零开发一个爬虫框架——Tinepeas
Scrapy 是一个非常优秀的爬虫框架,为了向 Scrapy 致敬,也为了让大家更好地理解 Scrapy 的工作原理,我们自己模仿 Scrapy 的数据流,写一个爬虫框架。
青南
2020/05/14
8510
爬虫框架scrapy
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中。 其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。
菲宇
2019/06/12
1.8K0
爬虫框架scrapy
Python自动化开发学习-Scrapy
讲师博客:https://www.cnblogs.com/wupeiqi/p/6229292.html 中文资料(有示例参考):http://www.scrapyd.cn/doc/
py3study
2020/01/08
1.6K0
(原创)七夜在线音乐台开发 第三弹 爬虫篇
上一篇咱们讲到了七夜音乐台的需求和所需要的技术。咱们今天就讲一下爬虫,为什么要讲爬虫,因为音乐台的数据源需要通过爬虫来获取,不可能手动来下载。下图是一个网络爬虫的基本框架: 网络爬虫的基本工作流程如下
七夜安全博客
2018/06/26
1.1K0
关于scrapy中scrapy.Request中的属性
填写的参数:响应返回的回调函数(必须是类当中或者父类当中的方法),默认为parse方法
小小咸鱼YwY
2020/06/19
6950
Python爬虫之scrapy的入门使用
命令:     sudo apt-get install scrapy 或者:     pip/pip3 install scrapy
海仔
2020/09/28
9730
Python爬虫之scrapy的入门使用
推荐阅读
相关推荐
爬虫系列(14)Scrapy 框架-模拟登录-Request、Response。
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验