download_delay - 腾讯云开发者社区

文章/答案/技术大牛

发布

2回答

Python Scrapy:如何使用self.download_delay

、

CVSpider(scrapy.Spider): start_urls = ["login"] 'DOWNLOAD_DELAY

浏览 2提问于2017-04-07得票数 0

1回答

Python，如何在单个蜘蛛中在每个请求之间做随机延迟？

、

我有一个蜘蛛，我想在每个请求之间有一个延迟，但是我不希望它是一个固定的数，而是两个界限之间随机的时间，我怎么能做到呢？

浏览 2提问于2017-01-27得票数 4

回答已采纳

1回答

延迟的请求列表

、

我需要以5分钟为间隔抓取10次网页列表。这是为了收集URL以供以后抓取。另一种看待它的方式是for i in 1:10 { url_list += scrape request sleep 5 minfor site in url_list如何在集合之间添加延迟，而不在抓取请求之间添加延迟？谢谢

浏览 12提问于2016-09-20得票数 0

4回答

如何设置Scrapy Auto_Throttle设置

、、

我的用例是这样的:我有10 spiders，并且AUTO_THROTTLE_ENABLED设置全局设置为True。问题是，对于其中一个spiders，没有auto-throttling的运行时间是4天，但有自动节流的运行时间是40天……

浏览 0提问于2015-04-21得票数 1

1回答

从爬行蜘蛛那里可以进入反应堆吗？

我正在研究在Scrapy蜘蛛中实现爬行延迟的方法。我想知道是否可以从蜘蛛中访问反应堆的方法？这将使页在n秒钟后很容易地被解析。

浏览 2提问于2011-12-04得票数 1

回答已采纳

1回答

Scrapy的Download_Delay和并发请求没有按预期工作

、、、

查看scrapy的download_delay和Concurrent_requests文档，我的理解是:如果我有'CONCURRENT_ requests '：25和1秒的download_delay，如果我使用0秒的download_delay，scrapy在没有1秒延迟的情况下做同样的事情。下面是我的代码：name = "details" allowed_domains = ["www.xxx.com&quo

浏览 48提问于2017-02-01得票数 0

1回答

在scrapy中处理启动请求操作

、

当我提交请求时，我面临着奇怪的行为，理想情况下，每个请求都会在6秒后产生，但实际发生的情况是，在60 (6*10)秒后，所有请求都会同时发出，我能够通过CONCURRENT_REQUESTS=1解决这个问题。import timeclass TestSpider(scrapy.Spider): allowed_domains = ['example.com'] def start

浏览 3提问于2020-02-07得票数 0

1回答

如何在检测响应状态中的代码500时自动增加scrapy的DOWNLOAD_DELAY

、、、

但是我发现很难在scrapy.setting.py文件中设置一个套装DOWNLOAD_DELAY。有太多的爬行器要编码，为每个爬行器找到合适的DOWNLOAD_DELAY会耗尽我的时间。我想知道哪些型号的爬虫加载和使用DOWNLOAD_DELAY参数，以及如何编写程序在检测服务错误时自动增加DOWNLOAD_DELAY (爬虫请求太频繁)。

浏览 2提问于2019-01-17得票数 1

1回答

使用python高效地抓取web

、、

我最近一直在尝试使用python抓取web内容。我已经设法为爬虫提供了一个种子，从这个种子开始抓取每个网站的标题、正文内容和指向另一个页面的每个链接。我想知道在100秒内抓取一个页面是否真的应该是一个缓慢的过程，如果是的话，我如何才能让它更快。我对它背后的理论很感兴趣。import requests as reqfrom bs4 import

浏览 0提问于2014-12-18得票数 0

1回答

在Python中，DOWNLOAD_DELAY和time.sleep有什么不同？

、

正如标题所说，如果我设置'DOWNLOAD_DELAY'：2，它在每个请求中与time.sleep(2)有什么不同？谢谢你的帮助。

浏览 214提问于2018-08-23得票数 2

回答已采纳

6回答

如何在scrapy中给出每个请求之间的延迟？

、、

我不想同时爬行和被阻塞。我想每秒发送一个请求。

浏览 3提问于2012-01-07得票数 50

回答已采纳

1回答

每只蜘蛛随机等待

、、、

我希望在请求之间使用随机等待，并将等待设置为每一个刮板。import timetime.sleep(np.random.normal(loc=avg, scale=stddev))这在刮痕上有可能吗？也许是一个定制的中间件？

浏览 3提问于2016-06-24得票数 0

回答已采纳

1回答

我需要油门刮板，以只命中网站每4s从python的URLS列表- scrapy，scrapy，python

、、、

刮一个python的网络域名列表，想把4秒的延迟之间的每一次刮，以符合robots.txt。希望每次迭代都异步运行，因此循环将每隔4秒继续运行一次，而不管该特定页面的抓取是否已完成。import requestscsvFile = open('test.csv&

浏览 0提问于2019-07-29得票数 0

1回答

在每个域上执行高并发和低请求率的Scrapy with。

、、、

我在试着做一个抓痕很宽的爬行。我们的目标是在不同的域上有许多并发的爬行，但同时在每个域上缓慢地爬行。因此能够保持良好的爬行速度并保持每个url上的请求频率较低。import refrom scrapy.contrib.spiders import CrawlSpider, Rulefrom myproject.items import MyprojectItem class testSpider(CrawlS

浏览 4提问于2016-05-23得票数 5

1回答

根据请求模块将curl执行的post请求转换为python请求

、、、

，它真的非常简单：但是，当我想根据模块请求将其插入到python脚本中时，我对setting=DOWNLOAD_DELAY=2有点困惑，因为它不遵循通常的格式(key=value)。所以我试了一下： r = requests.post("http://httpb

浏览 0提问于2013-02-22得票数 3

回答已采纳

1回答

如何通过Python中的init设置类变量？

、

最起码的例子： 'DOWNLOAD_DELAY': 10, # defaultself.delay = kwargs.get('delay') testSpider.custom_settings['DOWNLOAD_DELAY'] = self.delay print(&#x

浏览 2提问于2021-11-08得票数 2

回答已采纳

1回答

如何在使用scrapy解析时尽量减少服务器负载?/如何忽略<body>并仅解析来自<head>的信息

settings.py CONCURRENT_REQUESTS = 32 DOWNLOAD_DELAY = 0.33现在速度为180/min(有时为200)

浏览 1提问于2019-06-30得票数 0

回答已采纳

3回答

可以在scrapy中设置动态下载延迟吗？

、、

我知道可以设置一个恒定的延迟DOWNLOAD_DELAY = 2有没有什么模块可以做到这一点？if (requesting too frequently) is found increase the DOWNLOAD_DELAY

浏览 4提问于2014-12-03得票数 4

1回答

刮擦CONCURRENT_REQUESTS在DOWNLOAD_DELAY设置时被忽略了？

、

在我看来，在观察刮痕统计数据(Crawled X pages (at X pages/min))时，例如：设置了请求，无论CONCURRENT_REQUESTS当没有DOWNLOAD_DELAY查询时，使用CONCURRENT_REQUESTS = 5查询20个项目需要4秒，而CONCURRENT_REQUESTS = 1则需要10秒，这对我来说更有意义。custom_settings = { &#x

浏览 1提问于2016-05-26得票数 4

回答已采纳

1回答

为什么python scrapy显示"twisted.internet.error.TimeoutError“错误

、

我正在尝试使用python scrapy删除一个页面。经过一些报废操作后，scrapy正在退出显示下面是我的代码：from scrapy.spider import BaseSpiderfrom scrapy.http.request import Requestfrom infobel.items im

浏览 0提问于2012-05-01得票数 1

回答已采纳

点击加载更多