腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(530)
视频
沙龙
2
回答
Python Scrapy:如何使用self.download_delay
、
CVSpider(scrapy.Spider): start_urls = ["login"] '
DOWNLOAD_DELAY
浏览 2
提问于2017-04-07
得票数 0
1
回答
Python,如何在单个蜘蛛中在每个请求之间做随机延迟?
、
我有一个蜘蛛,我想在每个请求之间有一个延迟,但是我不希望它是一个固定的数,而是两个界限之间随机的时间,我怎么能做到呢?
浏览 2
提问于2017-01-27
得票数 4
回答已采纳
1
回答
延迟的请求列表
、
我需要以5分钟为间隔抓取10次网页列表。这是为了收集URL以供以后抓取。另一种看待它的方式是for i in 1:10 { url_list += scrape request sleep 5 minfor site in url_list如何在集合之间添加延迟,而不在抓取请求之间添加延迟?谢谢
浏览 12
提问于2016-09-20
得票数 0
4
回答
如何设置Scrapy Auto_Throttle设置
、
、
我的用例是这样的:我有10 spiders,并且AUTO_THROTTLE_ENABLED设置全局设置为True。问题是,对于其中一个spiders,没有auto-throttling的运行时间是4天,但有自动节流的运行时间是40天……
浏览 0
提问于2015-04-21
得票数 1
1
回答
从爬行蜘蛛那里可以进入反应堆吗?
我正在研究在Scrapy蜘蛛中实现爬行延迟的方法。我想知道是否可以从蜘蛛中访问反应堆的方法?这将使页在n秒钟后很容易地被解析。
浏览 2
提问于2011-12-04
得票数 1
回答已采纳
1
回答
Scrapy的
Download_Delay
和并发请求没有按预期工作
、
、
、
查看scrapy的
download_delay
和Concurrent_requests文档,我的理解是:如果我有'CONCURRENT_ requests ':25和1秒的
download_delay
,如果我使用0秒的
download_delay
,scrapy在没有1秒延迟的情况下做同样的事情。下面是我的代码:name = "details" allowed_domains = ["www.xxx.com&quo
浏览 48
提问于2017-02-01
得票数 0
1
回答
在scrapy中处理启动请求操作
、
当我提交请求时,我面临着奇怪的行为,理想情况下,每个请求都会在6秒后产生,但实际发生的情况是,在60 (6*10)秒后,所有请求都会同时发出,我能够通过CONCURRENT_REQUESTS=1解决这个问题。import timeclass TestSpider(scrapy.Spider): allowed_domains = ['example.com'] def start
浏览 3
提问于2020-02-07
得票数 0
1
回答
如何在检测响应状态中的代码500时自动增加scrapy的
DOWNLOAD_DELAY
、
、
、
但是我发现很难在scrapy.setting.py文件中设置一个套装
DOWNLOAD_DELAY
。有太多的爬行器要编码,为每个爬行器找到合适的
DOWNLOAD_DELAY
会耗尽我的时间。我想知道哪些型号的爬虫加载和使用
DOWNLOAD_DELAY
参数,以及如何编写程序在检测服务错误时自动增加
DOWNLOAD_DELAY
(爬虫请求太频繁)。
浏览 2
提问于2019-01-17
得票数 1
1
回答
使用python高效地抓取web
、
、
我最近一直在尝试使用python抓取web内容。我已经设法为爬虫提供了一个种子,从这个种子开始抓取每个网站的标题、正文内容和指向另一个页面的每个链接。我想知道在100秒内抓取一个页面是否真的应该是一个缓慢的过程,如果是的话,我如何才能让它更快。我对它背后的理论很感兴趣。import requests as reqfrom bs4 import
浏览 0
提问于2014-12-18
得票数 0
1
回答
在Python中,
DOWNLOAD_DELAY
和time.sleep有什么不同?
、
正如标题所说,如果我设置'
DOWNLOAD_DELAY
':2,它在每个请求中与time.sleep(2)有什么不同? 谢谢你的帮助。
浏览 214
提问于2018-08-23
得票数 2
回答已采纳
6
回答
如何在scrapy中给出每个请求之间的延迟?
、
、
我不想同时爬行和被阻塞。我想每秒发送一个请求。
浏览 3
提问于2012-01-07
得票数 50
回答已采纳
1
回答
每只蜘蛛随机等待
、
、
、
我希望在请求之间使用随机等待,并将等待设置为每一个刮板。import timetime.sleep(np.random.normal(loc=avg, scale=stddev))这在刮痕上有可能吗?也许是一个定制的中间件?
浏览 3
提问于2016-06-24
得票数 0
回答已采纳
1
回答
我需要油门刮板,以只命中网站每4s从python的URLS列表- scrapy,scrapy,python
、
、
、
刮一个python的网络域名列表,想把4秒的延迟之间的每一次刮,以符合robots.txt。希望每次迭代都异步运行,因此循环将每隔4秒继续运行一次,而不管该特定页面的抓取是否已完成。import requestscsvFile = open('test.csv&
浏览 0
提问于2019-07-29
得票数 0
1
回答
在每个域上执行高并发和低请求率的Scrapy with。
、
、
、
我在试着做一个抓痕很宽的爬行。我们的目标是在不同的域上有许多并发的爬行,但同时在每个域上缓慢地爬行。因此能够保持良好的爬行速度并保持每个url上的请求频率较低。import refrom scrapy.contrib.spiders import CrawlSpider, Rulefrom myproject.items import MyprojectItem class testSpider(CrawlS
浏览 4
提问于2016-05-23
得票数 5
1
回答
根据请求模块将curl执行的post请求转换为python请求
、
、
、
,它真的非常简单:但是,当我想根据模块请求将其插入到python脚本中时,我对setting=
DOWNLOAD_DELAY
=2有点困惑,因为它不遵循通常的格式(key=value)。所以我试了一下: r = requests.post("http://httpb
浏览 0
提问于2013-02-22
得票数 3
回答已采纳
1
回答
如何通过Python中的__init__设置类变量?
、
最起码的例子: '
DOWNLOAD_DELAY
': 10, # defaultself.delay = kwargs.get('delay') testSpider.custom_settings['
DOWNLOAD_DELAY
'] = self.delay print(
浏览 2
提问于2021-11-08
得票数 2
回答已采纳
1
回答
如何在使用scrapy解析时尽量减少服务器负载?/如何忽略<body>并仅解析来自<head>的信息
settings.py CONCURRENT_REQUESTS = 32
DOWNLOAD_DELAY
= 0.33现在速度为180/min(有时为200)
浏览 1
提问于2019-06-30
得票数 0
回答已采纳
3
回答
可以在scrapy中设置动态下载延迟吗?
、
、
我知道可以设置一个恒定的延迟
DOWNLOAD_DELAY
= 2有没有什么模块可以做到这一点?if (requesting too frequently) is found increase the
DOWNLOAD_DELAY
浏览 4
提问于2014-12-03
得票数 4
1
回答
刮擦CONCURRENT_REQUESTS在
DOWNLOAD_DELAY
设置时被忽略了?
、
在我看来,在观察刮痕统计数据(Crawled X pages (at X pages/min))时,例如:设置了请求,无论CONCURRENT_REQUESTS当没有
DOWNLOAD_DELAY
查询时,使用CONCURRENT_REQUESTS = 5查询20个项目需要4秒,而CONCURRENT_REQUESTS = 1则需要10秒,这对我来说更有意义。custom_settings = {
浏览 1
提问于2016-05-26
得票数 4
回答已采纳
1
回答
为什么python scrapy显示"twisted.internet.error.TimeoutError“错误
、
我正在尝试使用python scrapy删除一个页面。经过一些报废操作后,scrapy正在退出显示下面是我的代码:from scrapy.spider import BaseSpiderfrom scrapy.http.request import Requestfrom infobel.items im
浏览 0
提问于2012-05-01
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python中Scrapy框架爬取豆瓣电影top250
selenium python系列(一)环境配置
带你领略功能强大的python Scrapy框架,小白可望不可即的那些框架
scrapy爬取漫画
5个技巧防止爬虫被墙,高效爬取大量数据
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
云直播
活动推荐
运营活动
广告
关闭
领券