如何解决scrapy中的403错误

在Scrapy中解决403错误的方法有以下几种：

修改User-Agent：403错误通常是由于网站的反爬虫机制导致的，网站会检测请求的User-Agent是否为合法的浏览器User-Agent。可以通过修改Scrapy的User-Agent来模拟浏览器请求，以避免被网站屏蔽。可以在Scrapy的settings.py文件中设置USER_AGENT参数，将其值设置为合法的浏览器User-Agent。
使用代理IP：403错误还可能是由于网站对IP进行了限制，可以通过使用代理IP来避免被封禁。可以在Scrapy的settings.py文件中设置HTTP_PROXY参数，将其值设置为可用的代理IP。
延时请求：有些网站会对频繁的请求进行限制，可以通过在请求之间添加延时来降低请求频率，以避免被网站屏蔽。可以在Scrapy的settings.py文件中设置DOWNLOAD_DELAY参数，将其值设置为合适的延时时间。
使用Cookies：有些网站会使用Cookies来进行身份验证和防止爬虫，可以通过在请求中添加合适的Cookies来绕过403错误。可以在Scrapy的Spider中重写start_requests方法，在请求中添加Cookies。
使用Scrapy-UserAgents插件：Scrapy-UserAgents是一个Scrapy的插件，可以自动随机选择User-Agent，以避免被网站屏蔽。可以通过安装该插件，并在Scrapy的settings.py文件中进行相应的配置来使用。

需要注意的是，以上方法并非一定适用于所有网站，具体的解决方法需要根据实际情况进行调整和尝试。另外，为了避免侵权和保护知识产权，我无法直接给出腾讯云相关产品和产品介绍链接地址。您可以通过访问腾讯云官方网站或咨询腾讯云客服获取相关信息。

Scrapy -如何在链接标记内指定href以获取所有页面和论文

、

我想要获取包含这些问题的所有页面，以及该科学期刊()的所有论文。其中一个问题是，当我试图在scrapy shell上获取网站的url，试图发现如何指定如何获取这些页面时，我得到了一个403错误。包含我想要转到下一页的href链接的部分是(在‘script’中)： <link rel="next" href="https://www.sciencedirect.com/journal/phytochemistry/issues?page=2" data-react-helmet="true"> 到目前为止，我写的代码几乎都是空的，我

浏览 2提问于2020-03-02得票数 0

2回答

Scrapy parse_node()精确地接受3个参数(2个给定)

、、

我在Scrapy中的parse_node方法面临一些问题： class s1(scrapy.spiders.XMLFeedSpider): name = "s1" handle_httpstatus_list = [400,401,403,404,408,410,500,502,503,504] allowed_domains = ["xxx"] start_urls = ["xxx"] main_url = start_urls[0] jobs_list = [] tracker = SummaryTracker() itertag =

浏览 5提问于2016-04-02得票数 0

3回答

爬行时刮伤中的错误403

、、、、

这是我为刮"blablacar“网站而写的代码。 # -*- coding: utf-8 -*- import scrapy class BlablaSpider(scrapy.Spider): name = 'blabla' allowed_domains = ['blablacar.in'] start_urls = ['http://www.blablacar.in/ride-sharing/new-delhi/chandigarh'] def parse(self, response):

浏览 2提问于2018-06-10得票数 1

3回答

Scrapy下载图像403错误

、、

我正在尝试从这个网站下载图片：目标网站最近改变了他们使用唯一URL发送图像的方式。当我下载图片时，我得到了一个403错误。下面的链接。我可以在浏览器中加载每个图像一次。加载映像一次后，后续请求会产生403错误。当我将浏览器更改为隐私模式时，我可以多次重新加载图像。这让我相信他们在以某种方式跟踪cookie。我尝试禁用scrapy中的cookie，但仍然收到403错误。我也尝试启用cookie，但一次只能处理一个请求。这也会产生一个403错误。目标站点正在使用清漆服务器进行缓存。我假设Varnish包含一些防刮擦技术。对如何下载图片有什么想法吗？

浏览 3提问于2014-11-27得票数 0

1回答

刮伤返回403错误(禁止)

、、、

我对Scrapy和使用Python都很陌生。在过去，我成功地得到了一个极小的Scrapy工作的例子，但从那以后就再也没有使用过它。同时，一个新版本已经发布(我认为我上次使用的版本是0.24)，我无法从我的生活中，弄清楚为什么我会得到一个403错误，无论我试图爬哪个网站。诚然，我还没有深入研究中间件和/或管道，但我希望能够在进一步探索之前得到一个最小的示例。话虽如此，这是我目前的代码： items.py import scrapy class StackItem(scrapy.Item): title = scrapy.Field() url = scrapy.Field() s

浏览 4提问于2016-03-07得票数 2

回答已采纳

1回答

scrapy https proxy 403错误-在curl中工作

、、、、

我在启用了HttpProxyMiddleware的Linux上有一个scrapy 1.4.0项目，即我的settings.py包含以下内容： DOWNLOADER_MIDDLEWARES = { 'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware': 10, } 当我使用以下命令运行我的爬行器(名为sslproxies)时，我得到一个错误： export https_proxy=https://123.123.123.123:3128 scrapy crawl sslproxies -o output/

浏览 15提问于2017-08-16得票数 0

2回答

刮除: 403错误对所有请求

、、、

我的刮痕爬虫使用，它在我的电脑上工作。但是，当我在vps上运行它时，它会在每个请求上返回403错误。 2018-05-26 09:43:18 [scrapy.proxies] DEBUG: Proxy user pass not found 2018-05-26 09:43:18 [scrapy.proxies] DEBUG: Using proxy <http://104.237.210.29:2716>, 20 proxies left 2018-05-26 09:43:19 [scrapy.downloadermiddlewares.retry] DEBUG: Retryin

浏览 2提问于2018-05-26得票数 0

回答已采纳

1回答

将刮伤改为刮红后，启动url头改变。

、

我有一个刮伤项目，我想将它修改为scrapy :主要的刮伤文件如下： class MySpider(RedisSpider): name = 'ScrapyBot' redis_key = 'myspider:start_urls' start_urls = [] my_header = { "Host": "jd.com", "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv

浏览 2提问于2022-03-29得票数 0

3回答

刮刮时如何修复403错误？

、

我一直得到403错误时，使用刮擦，即使我有适当的标题设置。我正在努力刮的网站是。我的代码： def start_request(self): headers = {"user-agent": "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.4951.67 Mobile Safari/537.36", "accept": "application/json

浏览 11提问于2022-07-08得票数 1

回答已采纳

2回答

如何解决scrapy中的403错误

、

我是scrapy的新手，我做了一个废弃数据的scrapy项目。我正在尝试从网站上抓取数据，但我得到了以下错误日志 2016-08-29 14:07:57 [scrapy] INFO: Enabled item pipelines: [] 2016-08-29 13:55:03 [scrapy] INFO: Spider opened 2016-08-29 13:55:03 [scrapy] INFO: Crawled 0 pages (at 0 pages/min),scraped 0 items (at 0 items/min) 2016-08-29 13:55:04 [scrapy] D

浏览 38提问于2016-08-29得票数 10

回答已采纳

3回答

错误403 :在scrapy中不处理或不允许使用HTTP状态代码

、、

这是代码，我已经写到刮刚拨号网站上了。 import scrapy from scrapy.http.request import Request class JustdialSpider(scrapy.Spider): name = 'justdial' # handle_httpstatus_list = [400] # headers={'User-Agent': "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrom

浏览 5提问于2017-08-18得票数 8

回答已采纳

1回答

Scrapy 403未知原因，scrapy挂在shell中

、

我正在使用scrapy 2.1.0尝试抓取这个url：https://www.livingsocial.com/deals/kenny-s-ribs-and-dusty-s-buffet-1 但我得到一个错误： DEBUG: Crawled (403) <GET https://www.livingsocial.com/deals/kenny-s-ribs-and-dusty-s-buffet-1> (referer: https://www.livingsocial.com/local/chicago/restaurants) ['partial'] 同时运行

浏览 14提问于2020-04-24得票数 0

1回答

在Scrapy中处理错误页

、、

我在start_urls中有一个URL 当爬虫第一次加载页面时，首先显示一个403错误页，之后爬虫关闭。我需要做的是在那个页面上填写一个captcha，然后它会让我访问这个页面。我知道如何编写绕过captcha的代码，但是在我的蜘蛛类中应该把这些代码放在哪里呢？当它遇到同样的问题时，我需要将它添加到其他页面上。 from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor from scrapy.selector i

浏览 1提问于2014-01-02得票数 4

1回答

刮破壳和刮痕没有收到403，但刮刮爬行工程。

、

我正在刮一个需要referer的网站。我把它设成这样。 DEFAULT_REQUEST_HEADERS = { 'Referer': 'http://www.referer.com' } 当我在项目文件夹中尝试scrapy shell url时(其中一个文件夹有scrapy.cfg)，这意味着它在settings.py文件中使用相同的设置，我可以看到referer在请求中，但是我得到了一个403响应。 scrapy.core.engine调试:爬行(403) (引用者：) 然而，在不改变任何事情的情况下，scrapy crawl my_spide

浏览 3提问于2018-09-06得票数 0

1回答

如何用Scrapy重新安排403响应页？

、

偶尔，我在使用Scrapy2.4.1抓取页面时得到403个响应。下载中间件设置为5次尝试，并在第5次尝试之后放弃： 2021-02-06 01:44:17 [scrapy.downloadermiddlewares.retry] ERROR: Gave up retrying <GET https://www.url...> (failed 5 times): 403 Forbidden 2021-02-06 01:44:17 [scrapy.spidermiddlewares.httperror] INFO: Ignoring response <403 https://w

浏览 3提问于2021-02-07得票数 0

1回答

如何在Scrapy项目中使用Privoxy和Tor

、、、

我正在尝试从中抓取，但目前我无法在浏览器中访问该站点，因为它的所有者禁止了我的IP地址(见下文)。我试图通过使用Privoxy和Tor来解决这个问题，类似于在中所描述的。首先，我安装了一个已启动的，默认情况下它侦听端口8118。我在/etc/privoxy/config中添加了下面一行 forward-socks5 / 127.0.0.1:9050 . 我还运行了Tor，它正在监听端口9050，并使用 kurt@kurt-ThinkPad:~$ netstat -tulnp | grep 9050 (Not all processes could

浏览 10提问于2017-04-24得票数 2

回答已采纳

3回答

如何修复爬网(403)

、、、

我使用的是python 3和scrapy。我正在用下面的代码获取scrapy shell： url = "https://www.urban.com.au/projects/melbourne-square-93-119-kavanagh-street-southbank" headers = { "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36

浏览 0提问于2019-09-09得票数 0

2回答

Scrapy错误-未处理或不允许HTTP状态代码

、、

我正在尝试运行一个爬虫，但是有这个日志： 2015-05-15 12:44:43+0100 [scrapy] INFO: Scrapy 0.24.5 started (bot: reviews) 2015-05-15 12:44:43+0100 [scrapy] INFO: Optional features available: ssl, http11 2015-05-15 12:44:43+0100 [scrapy] INFO: Overridden settings: {'NEWSPIDER_MODULE': 'reviews.spiders', '

浏览 7提问于2015-05-15得票数 3

1回答

如何在Scrapy中发出需要请求有效负载的POST请求

、、

我正在尝试解析来自这个的数据。在检查元素的网络部分，我找到了一个用于返回我感兴趣的JSON的POST请求的链接。但是对于这个帖子请求，有一些字典的请求有效载荷。我假设它就像普通的格式数据，我们使用它在刮刮中生成FormRequest，但是它返回403错误。我已经试过以下几种方法。 url = "https://busfor.pl/api/v1/searches" formdata = {"from_id" : d_id ,"to_id" : a_id ,"on"

浏览 3提问于2019-10-07得票数 0

回答已采纳

1回答

如何在Scrapy中修复403响应

、

http://prntscr.com/o56670 请查看截图我正在使用python 3并在我的终端上使用scrapy。 fetch("https://angel.co/adil-wali") 当请求链接时，它以403响应。所以我已经改变和轮换了用户代理和机器人，但仍然显示403响应，所以这次我购买了爬虫计划，但爬虫仍然说523响应您知道为什么在scrapy shell中请求返回403而不是200响应吗？

浏览 5提问于2019-06-22得票数 0

回答已采纳

1回答

403 HTTP状态代码不被处理或不允许

、、

我正试图从获得一份位置列表。它在我的浏览器中打开很好，但是当我尝试使用刮伤时，我什么也得不到，而且： 2022-04-30 11:49:21 [scrapy.extensions.telnet] INFO: Telnet console listening on 127.0.0.1:6023 2022-04-30 11:49:22 [scrapy.core.engine] DEBUG: Crawled (403) <GET https://www.taylorwimpey.co.uk/sitemap> (referer: None) 2022-04-30 11:49:22 [scr

浏览 6提问于2022-04-30得票数 -1

回答已采纳

1回答

Scrapy到底在哪里做html请求呢？

、、

我在Python3中使用Scrapy (Scrapy==1.6.0)库。我想知道，在代码中Scrapy实际上在哪里做HTML请求？我想在那里设置一个断点，这样我就可以确切地看到实际传递的是什么头/cookie/ urls /和用户代理。另外，响应的确切位置也是一样的？现在我的爬行器找不到任何页面，所以我想我要么得到一个空白的HTML文档，要么得到一个403错误，但是我不知道从哪里去确认这一点。熟悉scrapy库的人能告诉我在代码中我可以检查这些参数的确切位置吗？

浏览 12提问于2019-03-14得票数 0

1回答

从ajax中提取数据

、、、

我试图从ajax中提取数据(标题、价格和描述)，但即使通过更改用户代理也无法工作。链接： Ajax (数据想要提取)： import scrapy class UseragentSpider(scrapy.Spider): name = 'useragent' allowed_domains = ['scrapingclub.com/exercise/ajaxdetail_header/'] start_urls = ['https://scrapingclub.com/exercise/ajaxdetail_header/

浏览 0提问于2020-09-07得票数 0

回答已采纳

2回答

如何使用Scrapy绕过cloudflare？

、

有什么简单的方法可以用Scrapy绕过cloudflare保护吗？我尝试过，但它对我不起作用，仍然出现403错误。谢谢。

浏览 2提问于2016-03-09得票数 4

1回答

使用刮伤时避免403错误

、

我遵循刮伤教程，我试图将它与我自己的项目联系起来。我首先通过运行以下命令创建一个项目： scrapy startproject idealistaScraper 接下来，我转到spiders文件夹并使用以下代码创建一个新的python文件： import scrapy print("\n", "-"*145, "\n", "-"*60, "Starting the Scrapy bot", "-"*60, "\n", "-"*145, "\n")

浏览 26提问于2022-04-08得票数 1

2回答

Scrapy Shell -如何更改USER_AGENT

、、、

我有一个功能齐全的抓取脚本从网站提取数据。在安装过程中，目标站点根据我的USER_AGENT信息禁用了我。随后，我添加了一个RotateUserAgentMiddleware来随机旋转USER_AGENT。这很好用。但是，现在当我尝试使用scrapy shell来测试xpath和css请求时，我得到了一个403错误。我确信这是因为scrapy shell的USER_AGENT默认为目标站点已列入黑名单的某个值。问:是否可以在scrapy shell中使用不同于默认的USER_AGENT来获取URL？ fetch('')添加什么?？更改USER_AGENT的步骤 Thx

浏览 0提问于2014-08-21得票数 19

回答已采纳

1回答

用Scrapy绕过Imperva机器人检测。有可能吗？

、、

我试图抓取几个包含事件信息的链接。我正在旋转由UserAgent库生成的付费代理和用户代理。Imperva，它需要一个美国IP，是如此敏感，即使它不允许我的浏览器事件，如果我使用一个免费的美国代理！我是在一个不和谐的频道里问这个问题的。有人联系我，说可以绕过Imperva，但他不能告诉我怎么做，因为他不想让我成为票务市场的竞争对手：除了用户代理和代理之外，我还试图模仿浏览器成功的请求头，但它没有工作。我只有405和403。我将尝试抓取事件部分，但我甚至看不到我拥有的27个链接中的任何一个都有200个响应(我在下面添加了一些)。，你认为Imperva怎么会被刮伤或请求绕过？，也可以推荐我一

浏览 4提问于2022-03-20得票数 -1

回答已采纳

1回答

从Scrapy的RetryMiddleware类继承时，如何修复循环导入？

、

我正在尝试调整Scrapy的类，用一个复制粘贴的版本覆盖_retry方法，在这个版本中我只添加了一行。我尝试按以下方式启动我的自定义中间件模块： import scrapy.downloadermiddlewares.retry from scrapy.utils.python import global_object_name 然而，这会产生一个 ImportError:无法导入名称global_object_name 根据的说法，这种类型的错误是由循环导入引起的，但在本例中，我无法轻松地删除Scrapy源代码中的依赖项。我怎么才能解决这个问题？为了完整起见，下面是我要实现的Tor

浏览 2提问于2017-05-15得票数 1

回答已采纳

2回答

如何重新安排403 HTTP状态代码，以便稍后在抓取？

、、

根据指令，我可以看到HTTP500个错误、连接丢失的错误等总是被重新安排的，但是如果403个错误也被重新安排了，或者它们仅仅被当作一个有效的响应来处理，或者在达到重试限制后被忽略，我就找不到任何地方。也是根据同一指示：在抓取过程中收集失败的页面，并在结束时重新安排，一旦爬行器完成了所有常规(非失败)页面的爬行。一旦不再有失败的页面需要重试，这个中间件就会发送一个信号(retry_complete)，以便其他扩展可以连接到该信号。这些Failed Pages指的是什么？其中包括403个错误吗？此外，当scrapy遇到HTTP 400状态时，我可以看到此异常被引发： 2015-12

浏览 2提问于2015-12-07得票数 11

回答已采纳

1回答

python scrapy css选择器名称提取不起作用

、

我正在尝试使用css选择器从中提取大学名称，但数据不能提取。设置了"ROBOTSTXT_OBEY = False“。更改后，我的代码如下所示。但是结果是一样的。 import scrapy class BloreSpider(scrapy.Spider): name = 'blore' start_urls = ['http://www.engineering.careers360.com/search/college/bangalore'] def parse(self, response): for quo

浏览 0提问于2016-11-01得票数 2

1回答

如何避免被“刮伤”所阻碍

背景：我正计划买辆车，想要监控价格。我想用Scrapy为我做这件事。但是，该站点阻止我的代码执行此操作。 MWE/代码： #!/usr/bin/python3 # from bs4 import BeautifulSoup import scrapy # adding scrapy to our file urls = ['https://www.carsales.com.au/cars/volkswagen/golf/7-series/wagon-bodystyle/diesel-fueltype/'] class HeadphoneSpider(scrapy.

浏览 1提问于2020-01-09得票数 0

1回答

如果URL在响应代码中得到307，如何使它重试？

、

我正在尝试使用代理来刮。但是对于大多数的URL，我被重定向到一个captcha验证页面。例如, 我想要取：但是我被重定向到因此，我希望刮板重试它接收HTTP响应代码307的那些URL。我已经尝试在settings.py中添加以下代码。 RETRY_HTTP_CODES = [500, 503, 504, 400, 408, 307, 403] RETRY_TIMES=5 DOWNLOADER_MIDDLEWARES = { 'scrapy.downloadermiddlewares.retry.RetryMiddleware': 500, 'real_estat

浏览 0提问于2018-05-17得票数 0

回答已采纳

1回答

Scrapy不进入parse()

、

import scrapy class IdealistaspiderSpider(scrapy.Spider): name = 'idealistaspider' allowed_domains = ['idealista.pt'] start_urls = ['https://www.idealista.pt/en/comprar-casas/lisboa/com-publicado_ultimas-24-horas//', ] def parse(self, resp

浏览 1提问于2020-05-09得票数 2

1回答

504网关超时-带有scrapy代理池和scrapy-用户代理

、

我无法爬行数据，它显示504Gatway超时错误，我尝试使用绕行方法UserAgent和Proxy，但没有帮助我爬行数据。我尝试了代理方法的scrapy-proxy-pool和useragetn方法的scrapy-user-agents，但这两种方法都不起作用。获得504网关超时我的好斗的 import scrapy import time import random class LaughfactorySpider(scrapy.Spider): handle_httpstatus_list = [403, 504] name = "myspider"

浏览 1提问于2020-04-26得票数 0

回答已采纳

2回答

Scrapy不返回任何数据

、、、

我试着抓取这一页：我使用了下面的代码： import scrapy class HipSpider(scrapy.Spider): name = "hip" allowed_domains = ["homeimprovementpages.com.au"] start_urls = [ "http://www.homeimprovementpages.com.au/connect/protecelectricalservices/service/163729", ] def par

浏览 0提问于2016-04-08得票数 0

1回答

在windows上使用scrapy的Django项目

、、、

我想开发一个使用scrapy的Django项目。我正在Windows上工作，并且知道scrapy应该使用Anaconda/conda安装在Windows上。然而，我不知道如何在我的Django项目中使用conda安装的scrapy。在Python shell中，import scrapy会引发一条错误消息。是否可以在Windows上使用Django+scrapy，或者我必须切换到Linux？

浏览 1提问于2020-10-19得票数 0

1回答

抓取Justdial

、

我想从Justdial中抓取学校名称、地址和电话号码的数据。我已经准备好脚本了。我使用Scrappy和selenium。但是，我从Justdial服务器收到HTTP错误403(禁止)和504(网关超时)。上面写着访问被拒绝。对于任何其他网站，当我使用scrappy使用fetch时，我们可以获得源代码，但对于Justdial，它显示访问被拒绝。 import scrapy class JustSpider(scrapy.Spider) : name = 'school' start_urls = [ 'https://www.justdial.com/Delh

浏览 17提问于2021-10-07得票数 0

1回答

无来自Spider的响应

、、、

我是python和webscraping的新手。我已经想办法解决我的问题了，但是没有任何帮助。我想刮所有的DND自制怪兽，以比较他们的描述与原始的。我把原版都准备好了，但还是被自制的东西卡住了。到目前为止，这是我的代码。这是我想要抓取的网站： import scrapy from scrapy.crawler import CrawlerProcess class homebrew(scrapy.Spider): name = "homebrew" custom_settings = { 'AUTOTHROTTLE_

浏览 1提问于2020-08-27得票数 0

1回答

不同域的不同download_delay

、

我正在使用刮刮从一个网站下载一些文章以及图片在文章中。关于这个场景的一些信息：文章来自主域(jandan.net) 文章中的图片来自其他网站。(例如tankr.net) 主域有访问频率限制，因此我必须设置download_delay以避免<403>错误。 scrapy.contrib.pipeline.images.ImagesPipeline下载的图像似乎图像下载也受到download_delay设置的限制。如何在限制主域下载速度的同时加快图像下载速度？

浏览 5提问于2015-06-22得票数 4

1回答

如何解决网络刮伤中的双403响应问题

、、

我试着从这个网站上得到文章。我试过的是：进入主url 进入sub，其中有完整的文章从完整的文章获得我需要的所有细节但是，当我试图首先运行代码时，我得到了响应403，然后我尝试通过在请求start_urls时添加标题来修复它，就像我从一些答案中看到的那样。我做到了，但是我的脚本给了我错误，当它进入到我需要的所有信息在那里的潜艇url时，它说响应403。我的当前代码如下 import scrapy from scrapy import Request from scrapy.crawler import CrawlerProcess class climateupdate(scrapy.

浏览 2提问于2022-07-19得票数 0

回答已采纳

1回答

403使用刮伤python时的响应

、、

我正在尝试学习刮伤和为一个网站做爬行，但当我做爬行时，我得到了403个回复。这是我的蜘蛛 import scrapy from scrapy.loader import ItemLoader from itemloaders.processors import TakeFirst, MapCompose from w3lib.html import remove_tags def remove_currency(value): return value.replace('£','').strip() class WhiskyscraperItem(

浏览 5提问于2022-10-26得票数 0

回答已采纳

2回答

使用Python Scrapy时的HTTP 403响应

、、

我在64位Windows Vista上使用的是Python.org 2.7版。我一直在测试下面的Scrapy代码，以递归地抓取www.whoscored.com站点上的所有页面，该站点用于足球统计： from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor from scrapy.selector import Selector from scrapy.item import Item from scrapy.spid

浏览 0提问于2014-07-18得票数 11

回答已采纳

1回答

在FormRequest中使用Scrapy

、、、

尝试用来自和的代码登录一个CMS成员站点，但是我总是很短。我的错误信息： 2017-03-20 18:18:07 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://members.com/robots.txt> (referer: None) 2017-03-20 18:18:07 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://members.com/wp-login.php> (referer: None) 2017-03-20 18:18:07 [

浏览 4提问于2017-03-20得票数 0

回答已采纳

1回答

调试:在Python3Web抓取中爬行(403)

、

我试着刮一个站点来练习，但是我一直收到HTTP 403错误。如何获得请求权限？这是我的代码： from typing import List import scrapy class ResearchSpider(scrapy.Spider): name = 'pesquisa' start_urls: list[str] = ['https://www.imovelweb.com.br/imoveis-aluguel-paraiba.html?iv_=__iv_p_1_a_17808488596_g_139189246037_w_dsa-1687

浏览 5提问于2022-09-16得票数 0

5回答

使用python抓取javascript生成的html

、、、

我需要用python抓取一个网站。我使用urlib模块获得了源代码html，但我还需要收集一些由javascript函数(包含在html源代码中)生成的html代码。这个函数在网站中的作用是，当你按下一个按钮时，它会输出一些html代码。我如何用python代码“按下”这个按钮？scrapy能帮到我吗？我捕获了带有firebug的POST请求，但是当我试图在url上传递它时，我得到了一个403错误。有什么建议吗？

浏览 0提问于2010-01-28得票数 18

回答已采纳

1回答

我的scrapy shell永远加载，并给出超时twisted.internet.error.TimeoutError：

、、、

我遇到了我的蜘蛛的问题，这些蜘蛛不是交付导入的，然后我获取了它们的start_urls，并尝试使用scrapy shell来查找bug。不幸的是，即使是粗糙的外壳也会永远加载，并返回twisted.internet.error.TimeoutError，我该如何解决这个问题呢？敬请查看我的scrapy shell命令和下面的错误 root@cf59900d79a8:/workspace# scrapy shell "https:www.mystart_url.com" 2020-08-28 04:37:53 [scrapy.utils.log] INFO: Scrapy 1.5

浏览 0提问于2020-08-28得票数 0

1回答

Scrapy: IndentationError:取消缩进不匹配任何外部缩进级别

、、

我在Scrapy splash上写了一个爬虫，我开始收到这个错误： File "C:\Users\Name\PycharmProjects\splash\project\project\spiders\scrapy.py", line 5 start_urls = [ ^ IndentationError: unindent does not match any outer indentation level 下面是我获得它的代码行： import scrapy from scrapy_splash import SplashRequest clas

浏览 25提问于2019-12-17得票数 1

1回答

在scrapy中不处理或不允许使用HTTP状态代码。

、

我刚开始刮擦，得到以下错误："HTTP状态代码不被处理或不允许“，我已经尝试了解决方案。 myspider.py import scrapy class SubmitformSpider(scrapy.Spider): name = "formsubmit_xpath" website_url = "https://www.knowyourgst.com/gst-number-search/" start_urls = ["https://www.knowyourgst.com/gst-number-search/"

浏览 1提问于2020-04-20得票数 0

回答已采纳

1回答

挣扎着用Scrapy刮一个网站

、、

我最近开始了我的第一个Python项目。我对火车很感兴趣，我在我的国家铁路公司的网站上没有发现任何CSV数据，所以我决定在Scrapy做网络抓取。但是，当在我的终端中使用fetch命令测试响应时，我一直无意中发现了DEBUG:爬行(403)。当我试图获取第二个链接时，终端会结冰--这些是我想为我的项目抓取数据的网站：在看了几篇关于这个问题的文章之后，我改变了蜘蛛的设置，以克服错误，比如禁用cookie，使用刮除的假用户代理，以及更改下载延迟。我还试图只将USER_AGENT变量设置为一些随机的用户代理，而不引用scrapy-假冒伪劣用户代理。不幸的是，所有这些都没有用。 DOWNLOAD

浏览 7提问于2022-10-25得票数 0

1回答

在Scrapy中，如何在获得HTTP403后继续解析方法

、、

如果没有启用HTTP403，我正在尝试刮一个返回JavaScript的网站。我试图实现的方法是，在解析方法中的，Selenium驱动程序从获取url并获取页面但我面临的问题是selenium在获得HTTP403之后自动关闭请求，而不是进入解析方法。这是我的代码： class SampleSpider(scrapy.Spider): name = "sample_spider" start_urls = ["https://website_that_returning_403.com"] def parse(self, respo

浏览 1提问于2022-01-05得票数 0

回答已采纳