前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >python爬虫----(scrapy框架提高(1),自定义Request爬取)

python爬虫----(scrapy框架提高(1),自定义Request爬取)

作者头像
lpe234
发布于 2020-07-27 09:13:24
发布于 2020-07-27 09:13:24
79600
代码可运行
举报
文章被收录于专栏:若是烟花若是烟花
运行总次数:0
代码可运行

最近看scrappy0.24官方文档看的正心烦的时候,意外发现中文翻译0.24文档,简直是福利呀~ http://scrapy-chs.readthedocs.org/zh_CN/0.24/


结合官方文档例子,简单整理一下:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
import scrapy
from myproject.items import MyItem
class MySpider(scrapy.Spider):
    name = 'myspider'
    start_urls = (
        'http://example.com/page1',
        'http://example.com/page2',
        )

    def parse(self, response):
        # collect `item_urls`
        for item_url in item_urls:
            yield scrapy.Request(item_url, self.parse_item)

    def parse_item(self, response):
        item = MyItem()
        # populate `item` fields
        # and extract item_details_url
        yield scrapy.Request(item_details_url, self.parse_details, meta={'item': item})

    def parse_details(self, response):
        item = response.meta['item']
        # populate more `item` fields
        return item

从Spider继承了一个爬虫类,唯一名称 name="myspider", 爬虫默认入口地址 start_urls = () ,元组或列表都可以。


从Spider源码中,可以看到:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 代码片段
class Spider(object_ref):
    """Base class for scrapy spiders. All spiders must inherit from this
    class.
    """

    name = None

    def __init__(self, name=None, **kwargs):
        if name is not None:
            self.name = name
        elif not getattr(self, 'name', None):
            raise ValueError("%s must have a name" % type(self).__name__)
        self.__dict__.update(kwargs)
        if not hasattr(self, 'start_urls'):
            self.start_urls = []

在Spider初始化时,检查name是否为None,start_urls 是否存在。代码很简单 继续向下看:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 代码片段
    def start_requests(self):
        for url in self.start_urls:
            yield self.make_requests_from_url(url)

    def parse(self, response):
        raise NotImplementedError

到这里很容易看到, start_requests 方法,遍历 start_urls 中的url,并执行 Request请求

默认response处理方法入口,parse函数需要实现,也就是在继承类中重写parse方法。


再看,示例代码中。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 第一个函数
    def parse(self, response):
        # collect `item_urls`
        # 可以理解为:网站的所有导航菜单的超链接集合
        for item_url in item_urls:
            yield scrapy.Request(item_url, self.parse_item)

为默认入口,也就是从父类Spider类中继承过来的(或者说是一个必须要实现的接口),但是需要实现。

在这个函数体中,根据 start_requests (默认为GET请求)返回的 Response,得到了一个 名字为‘item_urls’ 的url集合。

然后遍历并请求这些集合。

再看 Request 源码:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 部分代码
class Request(object_ref):

    def __init__(self, url, callback=None, method='GET', headers=None, body=None, 
                 cookies=None, meta=None, encoding='utf-8', priority=0,
                 dont_filter=False, errback=None):

        self._encoding = encoding  # this one has to be set first
        self.method = str(method).upper()
        self._set_url(url)
        self._set_body(body)
        assert isinstance(priority, int), "Request priority not an integer: %r" % priority
        self.priority = priority

        assert callback or not errback, "Cannot use errback without a callback"
        self.callback = callback
        self.errback = errback

        self.cookies = cookies or {}
        self.headers = Headers(headers or {}, encoding=encoding)
        self.dont_filter = dont_filter

        self._meta = dict(meta) if meta else None

    @property
    def meta(self):
        if self._meta is None:
            self._meta = {}
        return self._meta

其中,比较常用的参数:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
url: 就是需要请求,并进行下一步处理的url
callback: 指定该请求返回的Response,由那个函数来处理。
method: 一般不需要指定,使用默认GET方法请求即可
headers: 请求时,包含的头文件。一般不需要。内容一般如下:使用 urllib2 自己写过爬虫的肯定知道
        Host: media.readthedocs.org
        User-Agent: Mozilla/5.0 (Windows NT 6.2; WOW64; rv:33.0) Gecko/20100101 Firefox/33.0
        Accept: text/css,*/*;q=0.1
        Accept-Language: zh-cn,zh;q=0.8,en-us;q=0.5,en;q=0.3
        Accept-Encoding: gzip, deflate
        Referer: http://scrapy-chs.readthedocs.org/zh_CN/0.24/
        Cookie: _ga=GA1.2.1612165614.1415584110;
        Connection: keep-alive
        If-Modified-Since: Mon, 25 Aug 2014 21:59:35 GMT
        Cache-Control: max-age=0
meta: 比较常用,在不同的请求之间传递数据使用的。字典dict型
        request_with_cookies = Request(url="http://www.example.com",
                                       cookies={'currency': 'USD', 'country': 'UY'},
                                       meta={'dont_merge_cookies': True})
encoding: 使用默认的 'utf-8' 就行。
dont_filter: indicates that this request should not be filtered by the scheduler. 
             This is used when you want to perform an identical request multiple times, 
             to ignore the duplicates filter. Use it with care, or you will get into crawling loops. 
             Default to False.
errback: 指定错误处理函数

不出意外的话,接下来就是 Response 的源码:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 部分代码
class Response(object_ref):

    def __init__(self, url, status=200, headers=None, body='', flags=None, request=None):
        self.headers = Headers(headers or {})
        self.status = int(status)
        self._set_body(body)
        self._set_url(url)
        self.request = request
        self.flags = [] if flags is None else list(flags)

    @property
    def meta(self):
        try:
            return self.request.meta
        except AttributeError:
            raise AttributeError("Response.meta not available, this response " \
                "is not tied to any request")

参数跟上面的类似。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
A Response object represents an HTTP response, which is usually
downloaded (by the Downloader) and fed to the Spiders for processing.
可以使用:
scrapy shell http://xxxx.xxx.xx

>>> dir(response)

查看信息

在继续向下看:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 第二个函数
    def parse_item(self, response):
        item = MyItem()
        # populate `item` fields
        # 相当于导航栏下面的列表页,此时可能还存在分页情况
        # and extract item_details_url
        yield scrapy.Request(item_details_url, self.parse_details, meta={'item': item})

接收到第一个函数得到并遍历的所有url的请求响应Response。并在当前页面中查找了所有的详细实体的初略信息,以及单品详细的url地址。

此时需要继续向下请求,请求详细的实体的页面。

在这个函数中使用到了 item,也可以不使用。直接将信息(比如实体根据导航标签的大体分类),通过Request的meta属性,传递给下一个callback处理函数。


继续向下看:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 第三个函数
    def parse_details(self, response):
        item = response.meta['item']
        # populate more `item` fields
        return item

此时,请求已经得到了实体的具体页面,也就是实体详细页。(比如,根据博客的文章列表点击进入了文章)。

这时需要接收一下,从上一个函数中传递过来的信息。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
def parse_details(self, response):
    item = response.meta['item']
# 也可以使用如下方式,设置一个默认值
    item = response.meta.get('item', None)
# 当 'item' key 不存在 meta字典中时,返回None

然后在在本页中使用 xpath,css,re等来选择详细的字段,至于具体的选择,以后再说吧~~~本来想简单的写点,然后就这么多了 ... ...

最后将最终得到的 item 返回即可。这样就能在 ITEM_PIPELINES 中得到数据,并进行下一步的处理了~~~

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
scrapy0700:深度爬虫scrapy深度爬虫
爬虫程序,主要是用与数据采集处理的一种网络程序,在操作过程中针对指定的url地址进行数据请求并根据需要采集数据,但是在实际项目开发过程中,经常会遇到目标url地址数量不明确的情况,如之前的章节中提到的智联招聘项目,不同的岗位搜索到的岗位数量不一定一致,也就意味着每个工作搜索到的工作岗位列表页面的数量不一定一致,爬虫工程师工作可能搜索到了10页,Django工作有可能都索到了25页数据,那么针对这样的数据要全部进行爬取,应该怎么处理呢?答案就是:深度爬虫
大牧莫邪
2018/08/27
1.9K0
网络爬虫框架Scrapy详解之Request
Request类是一个http请求的类,对于爬虫而言是一个很重要的类。通常在Spider中创建这样的一个请求,在Downloader中执行这样的一个请求。同时也有一个子类FormRequest继承于它,用于post请求。
Python中文社区
2018/08/08
8940
scrapy进阶开发(一):scrapy架构源码分析
其子类有HtmlResponse,TextResponse,XmlResponse
Meet相识
2018/09/12
2.5K0
scrapy进阶开发(一):scrapy架构源码分析
爬虫 | Python学习之Scrapy-Redis实战京东图书
scrapy-Redis就是结合了分布式数据库redis,重写了scrapy一些比较关键的代码,将scrapy变成一个可以在多个主机上同时运行的分布式爬虫。
猴哥yuri
2019/07/30
3980
Python:Resquest/Response
Request Request 部分源码: # 部分代码 class Request(object_ref): def __init__(self, url, callback=None, method='GET', headers=None, body=None, cookies=None, meta=None, encoding='utf-8', priority=0, dont_filter=False, errback=
Lansonli
2021/10/09
4090
Python爬虫之scrapy模拟登陆
scrapy中start_url是通过start_requests来进行处理的,其实现代码如下
海仔
2020/09/28
1.5K0
爬虫系列(14)Scrapy 框架-模拟登录-Request、Response。
通常,Request对象在爬虫程序中生成并传递到系统,直到它们到达下载程序,后者执行请求并返回一个Response对象,该对象返回到发出请求的爬虫程序。
野原测试开发
2019/07/10
1.6K0
爬虫系列(14)Scrapy 框架-模拟登录-Request、Response。
二、Item Pipeline和Spider-----基于scrapy取校花网的信息 编写item pipeline
Item Pipeline 当Item在Spider中被收集之后,它将会被传递到Item Pipeline,这些Item Pipeline组件按定义的顺序处理Item。 每个Item Pipeline都是实现了简单方法的Python类,比如决定此Item是丢弃而存储。以下是item pipeline的一些典型应用: 验证爬取的数据(检查item包含某些字段,比如说name字段) 查重(并丢弃) 将爬取结果保存到文件或者数据库中 编写item pipeline 编写item pipeline很简单,item
酱紫安
2018/04/16
1.3K0
二、Item Pipeline和Spider-----基于scrapy取校花网的信息
		编写item pipeline
Python scrapy 安装与开发
Scrapy是采用Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取采集web站点信息并从页面中提取结构化的数据。
阳光岛主
2019/02/18
1.3K0
Python scrapy 安装与开发
Python爬虫之scrapy构造并发送请求
在爬虫文件的parse方法中,提取详情页增加之前callback指定的parse_detail函数:
海仔
2020/09/28
1.5K0
Python爬虫之scrapy构造并发送请求
[387]scrapy模拟登陆
通过scrapy.FormRequest能够发送post请求,同时需要添加fromdata参数作为请求体,以及callback
周小董
2022/04/12
9030
[387]scrapy模拟登陆
爬虫之scrapy框架(二)
当我们启动spider.py文件时,会执行我们设置好的start_urls,但是源码真正是如何处理的呢?我们进入scrapy.Spider查看源码,Spider类下有如下代码:
GH
2020/03/19
9640
scrapy爬取1024种子
1024不必多说,老司机都懂,本文介绍scrapy爬取1024种子,代码不到50行!Scrapy,Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。 关于scrapy用下图来说明即可(图片来自https://cuiqingcai.com/3472.html )
LiosWong
2019/03/14
3.1K0
scrapy爬取1024种子
python爬虫入门:scrapy爬取书籍的一些信息
爬取这个网上的书籍http://www.allitebooks.com/security/ 然后价格等信息在亚马逊上爬取:https://www.amazon.com/s/ref=nb_sb_noss
禹都一只猫olei
2018/05/25
7850
爬取豆瓣电影信息
昨天写了一个小爬虫,爬取了豆瓣上2017年中国大陆的电影信息,网址为豆瓣选影视,爬取了电影的名称、导演、编剧、主演、类型、上映时间、片长、评分和链接,并保存到MongoDB中。
py3study
2020/01/20
1.3K0
利用Scrapy框架爬取LOL皮肤站高清壁纸
成品打包:点击进入 代码: 爬虫文件 # -*- coding: utf-8 -*- import scrapy from practice.items import PracticeItem from urllib import parse class LolskinSpider(scrapy.Spider): name = 'lolskin' allowed_domains = ['lolskin.cn'] start_urls = ['https://lolsk
SingYi
2022/07/14
4690
利用Scrapy框架爬取LOL皮肤站高清壁纸
爬虫课堂(十五)|Request和Response(请求和响应)
Scrapy的Request和Response对象用于爬网网站,在介绍Scrapy框架原理之前先具体讲解下Request和Response对象。 通常,Request对象在爬虫程序中生成并传递到系统,
黄小怪
2018/05/21
2.5K0
【Python爬虫实战】Scrapy 翻页攻略从入门到精通的完整教程
Scrapy 是一个强大的网页爬虫框架,广泛用于从网站中抓取数据。在使用 Scrapy 进行数据抓取时,翻页请求是常见的需求。本文将详细介绍 Scrapy 发起翻页请求的原理与实现方式,包括如何通过 Scrapy 框架进行翻页请求、如何自定义请求参数,以及如何处理多页面的数据提取。
易辰君
2024/12/25
3240
Scrapy 中 Request 对象和
Request 对象 Request构造器方法的参数列表: Request(url [, callback=None, method='GET', headers=None, body=None,cookies=None, meta=None, encoding='utf-8', priority=0,dont_filter=False, errback=None, flags=None]) 各参数说明: url(必选) 请求页面的url地址,bytes或str类型。 callback 页面解析函数
py3study
2020/01/17
7270
Python scrapy框架爬取瓜子二
可以到https://www.lfd.uci.edu/~gohlke/pythonlibs/  下载 pywin32,lxml,Twisted,scrapy然后pip安装
py3study
2020/01/16
5900
推荐阅读
相关推荐
scrapy0700:深度爬虫scrapy深度爬虫
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验