scrapy redis框架 - 腾讯云开发者社区

、

我在研究刮伤的框架。import scrapyimport ConfigParser logger = get_logger() def __init__(self, *args, **kwa

浏览 2提问于2017-06-19得票数 0

回答已采纳

1回答

scrapy添加scrapy_redis后出现报错？

、、、

最近学习scrapy框架，在settings中添加scrapy_redis参数 # Ensure all spiders share same duplicates filter throughDUPEFILTER_CLASS = "s

浏览 699提问于2020-03-05

2回答

抓取-- redis框架，redis存储xxx:请求已经爬行完毕，但程序仍在运行，如何自动停止程序，而不是已经运行？运行代码： 2017-08-07 09:17:06 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped0 items (at 0 items/min) 2017-08-07 09:18:06 [scrapy.extensions.logstats] INFO: C

浏览 4提问于2017-08-07得票数 1

回答已采纳

1回答

scrapy-redis如何将第一个请求实现为post请求

、

我们知道scrapy_redis可以通过重写start_request函数来实现post请求，那么scrapy呢？

浏览 26提问于2019-03-18得票数 0

2回答

为什么scrapy-redis不起作用？

、、、

我从github下载了scrapy-redis，并按照说明运行它，但它失败了，并给出了这个错误： Traceback (most recent call last): File "/usr/local/lib/python2.7/dist-packages/Scrapy-0.16.3-py2.7.egg/s

浏览 0提问于2013-01-04得票数 1

回答已采纳

1回答

定制BaseSpider刮伤

、、

通常，刮伤蜘蛛是从scrapy.Spider类继承的。我尝试在scrapy的蜘蛛文件夹中创建一个BaseSpider类，但是没有工作 def __init= Redis(host='redis', port=6379)给出这个错误 TypeError: Error when calling= R

浏览 3提问于2017-06-17得票数 0

回答已采纳

1回答

重新抓取一台机器已经爬行的url

、、、

我使用scrapy-redis.编写了一个分布式蜘蛛SCHEDULER = "scrapy_redis.scheduler.Scheduler"SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.SpiderPri

浏览 1提问于2016-08-23得票数 0

回答已采纳

1回答

scrapy_redis停止我的蜘蛛在x次空闲之后

、、、

我有一个scrapy_redis蜘蛛池，它侦听红色队列(蜘蛛的数量并不总是相同的)。这个队列由另一个脚本提供。我希望我的蜘蛛在没有活动的X分钟后停下来，那时红色的队列里什么都没有了。这是我的settings.pyDUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilterCrawlera User Agent

浏览 2提问于2017-04-21得票数 4

2回答

Scrapy-Redis中的Dupefilter没有按预期工作。

、、

我感兴趣的是使用来存储在Redis中刮过的物品。特别是，似乎是一个有用的特性。page/1/', ] '

浏览 25提问于2017-05-04得票数 1

回答已采纳

1回答

Scrapy请求方法的meta是浅拷贝，而请求方法的meta在scrapy_redis.Why中是深拷贝？

scrapy:from scrapy.spider import Request 输出： L-id: 2769118042568秒这是浅拷贝 scrapy_redisfrom scrapy_re

浏览 2提问于2018-08-17得票数 4

回答已采纳

1回答

我是否正确地使用scrapy-redis来抓取大量URL？

我对分布式scrapy爬虫是个新手，但是我发现了scrapy-redis并且一直在使用它。我在一个覆盆子pi上使用它来抓取大量我推送到redis的URL。我所做的就是在Pi中创建多个SSH会话，然后运行scrapy crawl myspider让爬行器“等待”。然后我启动另一个SSH并执行redis-cli lpush "my links“。我真的只是在寻找在实现这个基本版本的scrapy-redis之后的“下一步”。编辑:我是从这个答案开

浏览 0提问于2020-07-31得票数 0

1回答

scrapy Redis无法连接到AWS

、、、

我有两个运行Scrapy的Ubuntu EC2实例，它们都使用scrapy来控制dupe。我正在尝试使用ElastiCache红宝石作为刮红店。我有完全相同的设置在不同的AWS帐户，它运行良好。两个EC2实例和ElastiCache实例都在同一个VPC中，我遵循这篇文章允许安全组从Scrapy实例访问ElastiCache。您可以看到下面的设置：ElastiCache实例位于选定的安全组中；其他两个组是两个Scrapy EC2实例。这个问题被隔离到Scrapy，因为我可以使用redis</e

浏览 0提问于2019-06-01得票数 0

1回答

如何从redis获得一个正常的url，而不是通过url cPikle转换？

、、、、

我使用scrapy简单地构建了一个分布式爬虫，从机器需要读取url形式的主队列url，但是有一个问题是，我到达url从机器是在cPikle转换后的数据，我想从redis- url队列中获得url是正确的示例：from scrapy.spider import Spider re

浏览 5提问于2016-03-21得票数 1

回答已采纳

1回答

如何让scrapy使用两个队列来管理urls？

、、、

我想用scrapy框架和scrapy-redis库做一个有针对性的分布式爬虫。我应该修改哪些scrapy模块来满足我的需求？

浏览 14提问于2018-08-23得票数 0

1回答

有没有办法通过脚本改变scrapy* spider的名字？*

、、、

我做了一个scrapy-redis爬虫，并决定做一个分布式爬虫。对于更多，我想让它成为一个基于任务的，一个任务一个名称。因此，我计划将爬行器的名称更改为任务的名称，并使用此名称来区分每个任务。这是我的代码，它是不成熟的：import redisfrom scrapy.utils.projectimport get_project_settings from sc

浏览 0提问于2017-05-26得票数 0

2回答

工作马过程意外终止RQ和Scrapy。

、、、

我试图从redis (rq)中检索一个函数，它生成一个CrawlerProcess，但是我得到了 'scrapy_splash.SplashCookiesMiddleware': 723, 'scrapy</em

浏览 1提问于2017-11-07得票数 4

回答已采纳

1回答

将刮伤改为刮红后，启动url头改变。

、

我有一个刮伤项目，我想将它修改为scrapy :主要的刮伤文件如下： name = 'ScrapyBot' callback=self.parse}该请求在Scrapy中运行良好，但在添加scrapy-redis部件后，开始请求中的头(从F

浏览 2提问于2022-03-29得票数 0

2回答

scrapy被redis阻塞

、、、

我使用一个抓取的爬虫来充当消费者，也有一个生产者来产生urls并不定期地将它们放在redis中，我的代码如下： def start_requests(self): for msg in self.redis_sub.listenmeta={'pageCount': pageCount, 'id': id, 'dont_redirect': True}) 代码可以正常接收urls，但是当它阻塞在第二行等待urls时，所有的scrapy

浏览 52提问于2019-01-23得票数 0

回答已采纳

1回答

如何修复:TypeError:无法pickle Selector对象

、、

not self.slot.scheduler.enqueue_request(request):self.queue.push(request)Fil

浏览 23提问于2019-01-09得票数 0

1回答

抓取:0个项目/分钟

、

我从一个网站上得到了一个Scrapy的例子，它可以工作，但似乎有问题:它不能获得所有的内容，我不知道发生了什么。该示例使用Scrapy+Redis+MongoDB。291 items (at 0 items/min)#-*-coding:utf8-*- from scrapy_redis.spiders import RedisSpiderAppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084

浏览 0提问于2015-10-09得票数 5

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

无法访问子实例中的父实例变量

scrapy添加scrapy_redis后出现报错？

scrapy程序不会自动关闭。

scrapy-redis如何将第一个请求实现为post请求

为什么scrapy-redis不起作用？

定制BaseSpider刮伤

重新抓取一台机器已经爬行的url

scrapy_redis停止我的蜘蛛在x次空闲之后

Scrapy-Redis中的Dupefilter没有按预期工作。

Scrapy请求方法的meta是浅拷贝，而请求方法的meta在scrapy_redis.Why中是深拷贝？

我是否正确地使用scrapy-redis来抓取大量URL？

scrapy Redis无法连接到AWS

如何从redis获得一个正常的url，而不是通过url cPikle转换？

如何让scrapy使用两个队列来管理urls？

有没有办法通过脚本改变scrapy* spider的名字？*

工作马过程意外终止RQ和Scrapy。

将刮伤改为刮红后，启动url头改变。

scrapy被redis阻塞

如何修复:TypeError:无法pickle Selector对象

抓取:0个项目/分钟

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐