如何在scrapy中使用CrawlSpider处理http错误代码

在Scrapy中使用CrawlSpider处理HTTP错误代码，可以通过重写CrawlSpider类的handle_httpstatus_list属性和parse方法来实现。

首先，设置handle_httpstatus_list属性来处理需要特殊处理的HTTP错误代码。该属性是一个列表，包含需要处理的错误代码。例如，如果要处理404和500错误代码，可以将handle_httpstatus_list设置为[404, 500]。

from scrapy.spiders import CrawlSpider

class MySpider(CrawlSpider):
    name = 'my_spider'
    handle_httpstatus_list = [404, 500]

    def parse(self, response):
        if response.status in self.handle_httpstatus_list:
            # 处理特定的HTTP错误代码
            # 在这里可以编写代码来处理特定错误
            pass
        else:
            # 处理其他正常的响应
            # 在这里可以编写代码来处理正常响应
            pass

在parse方法中，我们可以根据response的状态码来处理特定的HTTP错误代码。当response的状态码在handle_httpstatus_list中时，可以编写对应的处理代码。例如，可以打印错误信息、重试请求或者记录错误日志等。

需要注意的是，CrawlSpider类已经实现了基本的爬取逻辑，包括跟进链接和解析页面的功能。如果需要自定义更复杂的爬取逻辑，可以重写CrawlSpider类的其他方法。

此外，在Scrapy中，还可以使用middlewares来处理HTTP错误代码。可以通过编写自定义的Downloader Middleware来捕获和处理特定的HTTP错误。具体的实现方式可以参考Scrapy的文档和示例代码。

推荐的腾讯云产品相关链接：腾讯云爬虫服务。这是腾讯云提供的爬虫服务，可用于处理HTTP错误代码以及其他爬虫相关的需求。

如何在scrapy中使用CrawlSpider处理http错误代码

、、

我正在尝试使用scrapy来测试一些网站及其子网站的http返回码，分别检测400和500范围内的错误。然而，另外，我也希望看到并处理300范围内的代码。我已经尝试了几天并查看了文档，但是我被卡住了，没有找到解决方案。谢谢你的帮助！跟随您将看到我使用CrawlSpider创建的爬行器。目标是在我的parse_item()函数的错误范围内查看/捕获http响应。我已经将handle_httpstatus_all = True添加到了settings.py中，但是除了HTTP_STATUS = 200之外，parse_item中没有其他内容。 import scrapy from scrapy

浏览 41提问于2019-02-14得票数 0

回答已采纳

0回答

如何在scrapy中抓取到csv

、、、

如何将页面抓取到csv？我的csv未显示或显示为空我跑过了：scrapy crawl jobs -o output.csv。显示csv时，其中不显示任何内容。 # -*- coding: utf-8 -*- import scrapy from scrapy import cmdline cmdline.execute("scrapy crawl jobs".split()) from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors.sgml impor

浏览 3提问于2017-11-30得票数 0

回答已采纳

2回答

如何在Scrapy中创建基于href的LinkExtractor规则

、、、

我正在尝试用Scrapy (scrapy.org)创建简单的爬虫。例如，允许使用item.php。我如何编写规则，允许以http://example.com/category/开头的url，但在GET参数中，page应该与其他参数一起使用任意数量的数字。这些参数的顺序是随机的。请帮助我怎样才能写出这样的规则？很少有有效值是：以下是守则： import scrapy from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors import LinkEx

浏览 6提问于2014-12-06得票数 4

回答已采纳

1回答

如何在Scrapy中遇到特定条件时跳出爬网

、、

对于我正在开发的应用程序，我需要scrapy来突破爬行，重新开始从一个特定的、任意的URL开始爬行。预期的行为是让scrapy只返回到特定的URL，如果满足特定条件，则可以在参数中提供该URL。我正在使用CrawlSpider，但不知道如何实现： class MyCrawlSpider(CrawlSpider): name = 'mycrawlspider' initial_url = "" def __init__(self, initial_url, *args, **kwargs): self.initial_

浏览 1提问于2018-11-13得票数 2

1回答

刮擦蜘蛛部分擦伤内容而留下其他内容

、、

我定义了一个刮擦蜘蛛，它可以刮掉所有的名字和一些故事，而定义的xpath不能从捕捉故事， # -*- coding: utf-8 -*- import scrapy from scrapy.contrib.loader import ItemLoader from scrapy.contrib.spiders import CrawlSpider,Rule from scrapy.selector import XmlXPathSelector from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor from canc

浏览 1提问于2016-02-08得票数 1

回答已采纳

1回答

链接提取器无法获取超出特定路径的路径

、

我需要一点关于Scrapy的帮助和你的指导。我的Start_Url是:：已经粘贴了下面的代码，它能够获得链接/路径，直到下面的url。但不能超越这一点。我需要转到每个产品的页面，在下面的路径下列出。在"productsinfamily“页面中列出了特定的产品(可能在一个java脚本中)。我的爬虫无法访问这些单独的产品页面。下面是爬虫蜘蛛的代码- import scrapy from scrapy.spiders import CrawlSpider, Rule from scrapy.linkextractors import LinkExtractor class Produ

浏览 5提问于2018-01-27得票数 0

3回答

抓取图像，空响应[抓取]

、、

我使用了一个使用scrapy进行图像抓取的例子。但是我没有在我的计算机上保存任何文件：这是我使用的代码： //Items.py// import scrapy class ImgurItem(scrapy.Item): title = scrapy.Field() image_urls = scrapy.Field() images = scrapy.Field() //settings.py// BOT_NAME = 'imgur' SPIDER_MODULES = ['imgur.spiders'] NEWSPIDER_MOD

浏览 0提问于2016-01-18得票数 0

1回答

scrapy -如何使用pandas dataframe中的数据填充项目？

、、

假设CrawlSpider如下： import scrapy from scrapy.loader import ItemLoader from scrapy.spiders import CrawlSpider, Rule from scrapy.linkextractors import LinkExtractor from tutorial.items import TestItem from scrapy.http import HtmlResponse class TestCrawlSpider(CrawlSpider): name = "test_crawl&#

浏览 0提问于2016-06-17得票数 3

1回答

在爬行器中配置规则时，跟随参数似乎不起作用

、、

我只想在第一页提取我想要的链接，我在爬虫中将DEPTH_LIMIT设置为1，并在匹配规则follows=False中将参数rule()设置为1，但我仍然发起了多个请求，我不知道为什么。我希望有人能回答我的疑问。提前谢谢。 # -*- coding: utf-8 -*- import scrapy from scrapy.http import Request from scrapy.spiders import CrawlSpider,Rule from scrapy.linkextractors import LinkExtractor class OfficialSpider(Craw

浏览 2提问于2018-10-19得票数 1

2回答

Python Scrapy字典项目

、、、、

有没有可能制作一个Python Scrapy爬虫来抓取整个网站，创建一个字典，在一个列中包含网站中使用的每个单词，并在它旁边的列中显示每个单词的所有实例的URL？如果是，是如何实现的？我假设爬行器应该不断地抓取每个URL，将HTML转换为纯文本，然后将每个字符串划分为列表项，创建一个列表，然后只向该列表添加以前没有添加过的项。但是，同时，它也应该知道哪些条目已经添加到列表中，以及它们的位置，当它抓取一个与列表中已经存在的单词相同的单词时，记住它的URL并将其添加到包含URL的列中。我已经创建了一个爬行器(如下所示)，它列出了所有URL和每个URL处找到的所有纯文本，但是我的编程技能还不够

浏览 12提问于2020-04-28得票数 0

2回答

将刮伤爬虫结果插入postgresql时出现的卷曲括号问题

、、、

使用刮伤外壳时： scrapy shell “http://blogs.reuters.com/us/“ 并试图提取网址的标题： response.xpath('(//title/text())').extract() 我得到： [u’Analysis & Opinion | Reuters'] 当我运行我的爬虫时，我在postgresql数据库中得到以下信息： {“Analysis & Opinion | Reuters”} 我想要的是： Analysis & Opinion | Reuters 我怎样才能做到这一点？此外，这是我正在使用的管道

浏览 1提问于2014-10-27得票数 0

回答已采纳

1回答

如何使用CrawlSpider通过以下链接抓取整个网站？

我意识到使用带有LinkExtractor规则的CrawlSpider只能解析链接的页面，而不能解析起始页面本身。例如，如果http://mypage.test包含指向http://mypage.test/cats/和http://mypage.test/horses/的链接，爬虫将在不解析http://mypage.test的情况下解析猫和马页面。下面是一个简单的代码示例： from scrapy.crawler import CrawlerProcess from scrapy.spiders import CrawlSpider, Rule from scrapy.linkextra

浏览 16提问于2019-06-17得票数 0

1回答

抓抓蜘蛛不会爬行是因为RegEx吗？

、、

我尝试导航到每个县，然后从这里导航到每个县中的每个城市：http://www.accountant-finder.com/CA/California-accountants.html 我的代码打开上面列出的主页，根据解析器函数抓取标题，但似乎没有应用规则来遵循以"/CA/“开头的县链接(相对路径)(如CA/Alameda/Alameda_county-California-accountants.html). 我尝试过使用各种reg-ex来修改规则，但都无济于事。我遗漏了什么？ import scrapy from scrapy.spiders import CrawlSpider,

浏览 21提问于2019-12-09得票数 2

2回答

使用Scrapy下载所有JS文件？

、

我试图爬行一个网站，搜索所有的JS文件来下载它们。我刚接触Scrapy，我发现我可以使用CrawlSpider，但我似乎对LinkExtractors有一个问题，因为我的解析器没有执行。 import scrapy from scrapy.spiders import CrawlSpider, Rule from scrapy.linkextractors import LinkExtractor class JSDownloader(CrawlSpider): name = 'jsdownloader' allowed_domains = ['example

浏览 25提问于2021-02-17得票数 0

回答已采纳

1回答

如何在刮擦完成后自动重新启动Scrapy

、

当抓取完成时，我尝试自动重新启动我的蜘蛛，特别是当响应状态不好时。例如，我有这样的代码： #!/usr/bin/python -tt # -*- coding: utf-8 -*- from scrapy.selector import Selector from scrapy.contrib.spiders import CrawlSpider from scrapy.http import Request from urlparse import urljoin from bs4 import BeautifulSoup from scrapy.spider import BaseSpi

浏览 4提问于2015-08-11得票数 1

1回答

time.sleep()函数不能在Scrapy递归webscraper中工作

、、

我使用Windows 64位上的Python.org版本2.7 64位。我有一些递归的webscraping代码，这些代码被我正在查看的站点上的反刮措施捕获： from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor from scrapy.selector import Selector from scrapy.item import Item from scrapy.spider import BaseSpider

浏览 3提问于2014-07-18得票数 1

回答已采纳

1回答

Scrapy Spider不使用SgmlLinkExtractor规则进入parse_item方法

、、、

我正在制作一个爬虫来递归地抓取网站，但问题是蜘蛛没有输入我的蜘蛛的parse_item method.The名称是example.py。代码如下： from scrapy.spider import Spider from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor from scrapy.selector import HtmlXPathSelector from scrapy.selector import S

浏览 1提问于2014-06-09得票数 0

2回答

Scrapy和Splash不会爬行

、、、

我做了一个爬虫，splash工作正常(我在我的浏览器中测试了它)，scrapy虽然不能抓取和提取项目。我的实际代码是： # -*- coding: utf-8 -*- import scrapy import json from scrapy.http.headers import Headers from scrapy.spiders import CrawlSpider, Rule from oddsportal.items import OddsportalItem class OddbotSpider(CrawlSpider): name = "oddbot&#

浏览 1提问于2016-01-29得票数 0

2回答

将Scrapyd与参数一起使用

、、、

我使用Scrapyd来使用scrapy作为webservice。我想使用curl命令，参数如下： curl http://myip:6800/schedule.json -d project=default -d spider=myspider -d domain=www.google.fr 但我不知道如何在Crawler中获得参数域。 import scrapy from scrapy.spiders import CrawlSpider, Rule from scrapy.linkextractors import LinkExtractor class MyItem(Item):

浏览 2提问于2016-03-10得票数 2

回答已采纳

2回答

Scrapy不会抓取整个网站

我试着用认证系统抓取整个网站。没有我的auth函数，一切都可以正常工作。当我使用我的auth函数时，只抓取登录和抓取主页。为什么它不抓取规则部分中定义的所有链接？ from scrapy.linkextractors import LinkExtractor from scrapy.spiders import CrawlSpider, Rule from scrapy.http import Request, FormRequest class TSpider(CrawlSpider): name = 't' allowed_domains = [

浏览 22提问于2019-06-03得票数 0

回答已采纳

1回答

只抓取网站的一部分

、、、

你好，我有下面的代码扫描所有的链接在一个给定的网站。 from scrapy.item import Field, Item from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors import LinkExtractor class SampleItem(Item): link = Field() class SampleSpider(CrawlSpider): name = "sample_spider" allowed_d

浏览 4提问于2014-07-17得票数 3

回答已采纳

4回答

无法在刮伤爬虫中导入我自己的模块

、

我在用Scrapy写爬虫。我已经造了一个爬虫，它工作得很好。现在我想创建自己的模块，但我总是收到以下错误：文件"D:\Projects\bitbucket\terranoha\crawl1\crawl1\spiders\samplecrawler.py"，第4行，在导入模块中 ModuleNotFoundError:没有名为“模块测试”的模块守则是： from scrapy.spiders import CrawlSpider, Rule from scrapy.linkextractors import LinkExtractor import modulete

浏览 0提问于2018-12-20得票数 3

2回答

如何在Scrapy Spider中使用请求函数？

、

from string import join from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor from scrapy.contrib.spiders.crawl import Rule, CrawlSpider from scrapy.http.request import Request from scrapy.selector import HtmlXPathSelector from Gfire.items import GfireItem class GuideSpider(CrawlSpider):

浏览 0提问于2012-09-08得票数 1

回答已采纳

1回答

为什么scrapy不给出一个项目的结果呢？

、、、

我想在剪贴画中获得价格和卖家的名字，但无法在正确的xpath中解析它们，以便在them.How上迭代以获得正确的xpath，以便我可以检索卖家和所有价格？ import scrapy from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.selector import Selector from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor from urlparse import urljoin from scrapy.contrib.link

浏览 1提问于2015-08-13得票数 0

1回答

Scrapy Crawler多个域在检索源页面后没有错误地完成

、

尝试让Scrapy抓取多个域。我让它工作了很短时间，但有些东西改变了，我不知道是什么。我的理解是，带有规则的"CrawlSpider“应该遵循任何允许的链接，直到深度设置或域名耗尽。 import scrapy from scrapy.spiders import CrawlSpider, Rule from scrapy.linkextractors import LinkExtractor class BbcSpider(CrawlSpider): name = 'bbcnews' allowed_domains = [ '

浏览 29提问于2018-06-03得票数 1

回答已采纳

1回答

如何使用我的CrawlSpider将相对路径转换为绝对路径？

、、

目前我的CrawlSpider代码是： import scrapy from scrapy.spiders import CrawlSpider, Rule from scrapy.linkextractors import LinkExtractor class HiddenAnswersSpider(CrawlSpider): name = 'ha' start_urls = ['http://answerstedhctbek.onion/questions'] allowed_domains = ['http://answ

浏览 0提问于2017-11-11得票数 0

1回答

抓取图片的url

、、、

如何使用python.please帮助me.this中的scrapy从网站获取图像url是我的代码 from scrapy.spiders import CrawlSpider, Rule #from scrapy.linkextractors.lxmlhtml import LxmlLinkExtractor from scrapy.contrib.linkextractors import LinkExtractor from scrapy.item import Item, Field class MyItem(Item): url= Field() class someS

浏览 1提问于2016-03-09得票数 3

1回答

抓取需要抓取网站上的所有下一个链接，然后转到下一页。

、、、、

我需要我的刮痕才能继续到下一页，请给我正确的规则代码，怎么写？？ from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.selector import Selector from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor from delh.items import DelhItem class criticspider(CrawlSpider): name ="delh" allowed_domains

浏览 2提问于2015-01-23得票数 1

2回答

如何使用scrapy在Python中刮取url

、、、

我想使用python中的scrapy从特定网站中提取URL，它具有以下HTML结构 <div class="comic-table"> <div id="comic"> <img src="http://demowebsite.com/uploads/image1" alt="" title=""> <img src="http://demowebsite.com/uploads/image2" alt="" title="

浏览 3提问于2016-03-29得票数 1

回答已采纳

2回答

如何在Python Scrapy上禁用SSL验证？

、、

我用PHP写了三年的数据抓取脚本。这是一个简单的PHP脚本 $url = 'https://appext20.dos.ny.gov/corp_public/CORPSEARCH.SELECT_ENTITY'; $fields = array( 'p_entity_name' => urlencode('AAA'), 'p_name_type' => urlencode('A'), 'p_search_type' => urlencode('BEGI

浏览 14提问于2016-09-20得票数 2

回答已采纳

1回答

在Scrapy中处理错误页

、、

我在start_urls中有一个URL 当爬虫第一次加载页面时，首先显示一个403错误页，之后爬虫关闭。我需要做的是在那个页面上填写一个captcha，然后它会让我访问这个页面。我知道如何编写绕过captcha的代码，但是在我的蜘蛛类中应该把这些代码放在哪里呢？当它遇到同样的问题时，我需要将它添加到其他页面上。 from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor from scrapy.selector i

浏览 1提问于2014-01-02得票数 4

1回答

如何在任何地方提取任意深度的链接？

我正在抓取dell.com网站，我的目标是像这样的页面。我如何设置链接提取规则，以便他们在任何深度的任何地方都能找到这些页面？据我所知，默认情况下没有深度限制。如果我这样做了： rules = ( Rule ( SgmlLinkExtractor(allow=r"productdetail\.aspx"), callback="parse_item" ), ) 它不工作:它只爬行起始页。如果我这样做了： rules = ( Rule ( SgmlLinkExtractor(allow=r&#

浏览 1提问于2014-08-08得票数 2

1回答

刮伤基本抓取器不工作？

、、、

因此，我最近刚开始为一个项目尝试Scrapy，我非常困惑于各种旧的语法(SgmlLinkExtractor等)。但我设法把我认为是可读的代码拼凑在一起，这对我来说是有意义的。但是，这并不是遍历网站中的每个页面，而是只访问start_urls页面，而不生成输出文件。有人能解释一下我错过了什么吗？ import scrapy import csv from scrapy.spiders import CrawlSpider, Rule from scrapy.linkextractors import LinkExtractor class RLSpider(CrawlSpider):

浏览 4提问于2016-12-07得票数 1

回答已采纳

1回答

刮掉的SgmlLinkExtractor忽略了允许的链接

、、

请查看Scrapy文档中的。其解释是：这个蜘蛛将开始爬行example.com的主页，收集类别链接和项目链接，并使用parse_item方法解析后者。对于每个条目响应，将使用XPath从HTML中提取一些数据，并将其填充到一个项中。我准确地复制了同一只蜘蛛，并将"example.com“替换为另一个初始url。 from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor from scrapy.sel

浏览 2提问于2009-11-28得票数 10

回答已采纳

1回答

Scrapy:如何在100个请求后停止CrawlSpider

我想限制CrawlSpider在网站上访问的页面数量。如何在100个请求后停止Scrapy CrawlSpider？

浏览 1提问于2020-07-11得票数 0

2回答

关于scrapy的问题，为什么我不能解析整个页面，而只解析页面上的第一条记录？

、、、

我是个scrappy新手，正在尝试按照一个例子(链接)来抓取craiglist。但是，每次运行我的代码时，我只能获得页面上的第一条记录，所附代码中的示例如下所示，它只包含每页上的第一条记录 link,title /eby/npo/5155561393.html,Residential Administrator full time /sfc/npo/5154403251.html,Sr. Director of Family Support Services /eby/npo/5150280793.html,Veterans Program Internship /eby/npo/51571

浏览 4提问于2015-08-05得票数 2

1回答

刮伤CrawlSpider不爬行

、、、、

我正在建造一只蜘蛛来提取乐器和它们的数据。为此，我使用CrawlSpider，最终的结果将是获取所有这些数据，并按模型名称将其放入mongoDB文档中。显然，我还没有完成，也还没有达到这一点。编辑:我能够修复这个错误并让它运行:但是现在爬虫爬行'0‘页面并且没有返回数据到它输出的csv文件中。有什么问题吗？我现在拥有的是： # -*- coding: utf-8 -*- import scrapy from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors.sgml

浏览 3提问于2014-11-04得票数 0

2回答

在scrapy中抓取大量静态html.gz文件

、、、、

我有一个抓取蜘蛛，它使用file:///命令作为开始url在磁盘上查找静态html文件，但我无法加载gzip文件并循环我的150,000个都有.html.gz后缀的文件目录，我已经尝试了几种不同的方法，我已经注释掉了，但到目前为止都不起作用，我的代码到目前为止看起来是这样的 from scrapy.spiders import CrawlSpider from Scrapy_new.items import Scrapy_newTestItem import gzip import glob import os.path class Scrapy_ne

浏览 0提问于2017-03-14得票数 0

2回答

试图用python做递归爬行器。SyntaxError:非关键字arg后面的关键字arg

、、

我试着爬一个以上的页面，我的函数确实返回第一个start url，但是我无法使工作成为蜘蛛的规则。以下是我到目前为止所拥有的： import scrapy from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor from craigslist_sample.items import CraigslistSampleItem class MySpider(CrawlSpider): name = &#

浏览 4提问于2015-04-13得票数 1

回答已采纳

1回答

如何在Scrapy完成爬行后运行代码

、

如何在Scrapy完成爬行后运行代码我有一只蜘蛛： from scrapy import Spider from scrapy.spiders import CrawlSpider,Rule from scrapy.linkextractors import LinkExtractor class KpallSpider(CrawlSpider): name = 'test' allowed_domains = ['kupujemprodajem.com'] start_urls = ['https://www.kupuj

浏览 17提问于2019-09-21得票数 0

回答已采纳

1回答

Python / Scrapy:不回调的生成请求

、

我正在尝试进入getMonthEvents。但不知何故，回调似乎从未执行过。有什么想法吗？谢谢:) from scrapy.selector import Selector from scrapy.spiders import CrawlSpider, Rule from scrapy.linkextractors import LinkExtractor from scrapy.http import Request from scrapy.item import Item, Field class EventItems(Item): Title = Field() Lin

浏览 4提问于2017-04-04得票数 1

回答已采纳

1回答

Tumblr抓取机器人无法获取图像(抓取)

、、

我正在尝试制作一个simpe tumblr机器人来抓取tumblr博客的所有图片。现在，蜘蛛能找到像头像和图标这样的东西，但找不到它们自己的帖子。 settings.py BOT_NAME = 'tumblr' SPIDER_MODULES = ['tumblr.spiders'] NEWSPIDER_MODULE = 'tumblr.spiders' ITEM_PIPELINES = {'scrapy.pipelines.images.ImagesPipeline': 1} IMAGES_STORE = 'C:\Use

浏览 0提问于2015-10-21得票数 0

2回答

刮除-输出到多个JSON文件

、、

我对Scrapy很陌生。我正在研究如何使用它来抓取整个网站的链接，在其中我会将条目输出到多个JSON文件中。所以我可以把它们上传到Amazon搜索中进行索引。是否有可能将项目分割成多个文件，而不是最终只有一个巨大的文件？据我所读，项目出口商只能输出到每个蜘蛛一个文件。但是我只使用一个CrawlSpider来完成这个任务。如果我能对每个文件中包含的项目的数量设置一个限制，比如500或1000，那就太好了。下面是我迄今为止设置的代码(基于本教程中使用的Dmoz.org )： dmoz_spider.py import scrapy from scrapy.spiders import Craw

浏览 3提问于2015-09-30得票数 7

回答已采纳

2回答

如何用Scrapy抓取整个网站？

、、

我无法抓取整个网站，Scrapy只能在表面抓取，我想抓取更深的部分。我已经用谷歌搜索了5-6个小时，但没有任何帮助。我的代码如下： from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor from scrapy.selector import HtmlXPathSelector from scrapy.item import Item from scrapy.spider import BaseSpider from

浏览 0提问于2013-03-19得票数 11

1回答

刮伤错误:找不到回调

、

刮取1.0，Python2.7.9，Ubuntu15.04。我在这方面看到了很多类似的问题，但它们都略有不同，它们都没有提到找不到回调错误。我的问题是，我无法从我的CrawlSpider获得任何输出。我已经在DMOZ示例和我的目标站点中成功地使用了BaseSpider (现在的scrapy.Spider)。我可以成功地从命令行中提取东西。但出于某种原因，我的CrawlSpider什么也得不到。这里的代码示例只是许多迭代中的一个。我试过用CrawlSpider和scrapy.Spider。我已经试着放弃和返回一个请求和一个项目。我已经把我的回调放在了规则和方法上。什么都没起作用。我显

浏览 3提问于2015-10-12得票数 2

1回答

Python抓取使用scrapy

、、、

因此，我已经看到了如何使用scrapy的教程，现在我可以访问给定页面中的链接。但我想要做的是，给定一个页面，我想收集它的数据(元数据和摘要)，我还想访问该页面中的链接并收集它们的数据。这是我到目前为止的代码(还没有收集到数据) from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor from scrapy.spider import BaseSpider from scrapy.http import Request

浏览 0提问于2015-03-17得票数 0

1回答

Scrapy FormRequest.from_response()方法

、

Im正在尝试使用Scrapy解析页面，为了显示隐藏的文本和价格，我在字段中输入了任意的邮政编码或随机数字： <input aria-label="Enter your zip code" role="textbox" name="searchTerm" class="form-control js-list-zip-entry-input" placeholder="ZIP Code" autocompletetype="find-a-store-search" tabindex="-

浏览 0提问于2016-11-30得票数 3

1回答

查找列表中的项目是否以文本形式出现的最佳方法

、

我想知道什么是最有效的方式，以找出如果一个文本已经被抓取使用Scrapy包含一个单词是在一个预定义的列表中。重要的是要注意，列表可能有大约200个单词，文本可能来自数百个网站，因此效率很重要。我目前在列表中只有几个单词的解决方案是： import scrapy from scrapy.linkextractors import LinkExtractor from scrapy.spiders import CrawlSpider, Rule class BookSpider(CrawlSpider): name = 'book' allowed_doma

浏览 0提问于2020-06-18得票数 2

2回答

刮擦的剧作家:使用刮擦的剧作家执行CrawlSpider

、、

是否可以使用剧作家对Scrapy的集成执行CrawlSpider？我正在尝试下面的脚本来执行一个CrawlSpider，但是它不会刮任何东西。它也不显示任何错误！ import scrapy from scrapy.linkextractors import LinkExtractor from scrapy.spiders import CrawlSpider, Rule class GumtreeCrawlSpider(CrawlSpider): name = 'gumtree_crawl' allowed_domains = ['www.gum

浏览 18提问于2022-03-13得票数 -1

回答已采纳

2回答

重置Scrapy中的cookie而不禁用它们

、、

我使用CrawlSpider爬行一个网站。网站用饼干检测到我的蜘蛛。如果我禁用它们，它也会检测到我是一个机器人。因此，如何在每个请求中使用新的cookie。我的蜘蛛很简单： # -*- coding: utf-8 -*- import scrapy import requests from scrapy.spiders import CrawlSpider, Rule from scrapy.linkextractors import LinkExtractor class ExampleSpider(CrawlSpider): name = 'example'

浏览 1提问于2017-08-22得票数 0

回答已采纳