如何通过更改"def start_requests(self)“中的一部分url在Scrapy中运行几次爬虫

、、

当我检查Castbox网站的JSON URL时，我发现每次通过向下滚动页面重新加载时，只有一部分URL会发生变化。这部分被称为“跳过”，它在0到200之间变化，你会在URL中看到它。因此，我想，如果我可以编写一个"def start_requests(self)“，其中的”跳过“部分可以从0更改为200，我就可以得到我想要的东西。这样的功能是否可能每次都

浏览 183提问于2020-11-12得票数 1

回答已采纳

1回答

Scrapy spider在队列中监听要抓取的种子urls？

、

让Scrapy爬虫在SQS队列(或其他队列)上监听新的种子URL爬行的方法是什么？在文档中找不到任何示例，所以我想这里可能有人知道。提前谢谢。编辑：这可能是start_requests的正确位置吗？class MySpider(scrapy.Spider): allowed_domains = ['exam

浏览 16提问于2019-01-15得票数 0

回答已采纳

1回答

抓取让一只蜘蛛使用另一种蜘蛛所建的属性。

、、、

我意识到我可以在一个蜘蛛中完成所有这些，但是这个蜘蛛已经非常大了(对于25+不同的域来说是一个通用的蜘蛛)，并且希望尽可能地将它分开。目前，我正在创建这个主蜘蛛的实例，如下所示： process = CrawlerProcess(get_project_settings()) process.crawl(MasterSpider, s

浏览 3提问于2017-08-02得票数 2

1回答

scrapy未处理的异常

、、

我在linux上使用的是scrapy 0.16.2版本。我在运行：我得到了这个错误，它阻止了scrapy (挂起并且不会自动完成，只有^C停止它, url) source = self

浏览 2提问于2012-11-20得票数 2

回答已采纳

4回答

在多个网站上使用一个Scrapy爬虫

、、

我需要创建一个用户可配置的网络蜘蛛/爬虫，我正在考虑使用Scrapy。但是，我不能硬编码域和允许的URL regex:es --这将在GUI中配置。如何(尽可能简单地)使用Scrapy创建一个爬行器或一组爬行器，其中域和允许的URL regex:es是动态可配置的？例如，我将配置写到一个文件中，然后爬行器以某种方式读取它。

浏览 2提问于2010-03-07得票数 12

回答已采纳

1回答

scrapy.Request没有通过

、

scrapy.Request中的第一个def start_requests通过并正确执行，但没有像这里所示的在def parse_navpage中执行一个。= ['zoopla.co.uk'] # Read source from file navpa

浏览 4提问于2022-09-10得票数 1

3回答

如何发送在Scrapy中启用的JavaScript和Cookie？

、、、

我正在刮一个网站使用Scrapy，这需要烹饪和java-script才能启用。我不认为我必须实际处理javascript。我所要做的就是假装javascript已经启用。这是我尝试过的: 1)通过以下设置启用CookieCOOKIES_DEBUG = TrueDOWNLOADER_MIDDLEWARES= { 'scrapy.contrib.downloadermiddleware.us

浏览 0提问于2013-05-06得票数 9

1回答

如何在解析过程中更改抓取闭包项计数

、

是否有可能在蜘蛛运行时更改CLOSESPIDER_ITEMCOUNT？100,} urls = ['https://google.com', 'https://amazon.com']for url in urls: yield scrapy.Request(url, ca

浏览 15提问于2022-02-04得票数 0

回答已采纳

1回答

如何在不使用"meta“的情况下在Scrapy Parse方法之间同步数据？

、、、

我想使用一些其他的方法，而不是使用meta，因为meta目前在我的爬虫中用来处理302响应。当我在这个字典中添加额外的项目时，为了同步数据，302响应被忽略 def start_requests(self): self.rowExt= row yield scrapy.Requ

浏览 15提问于2020-09-12得票数 1

回答已采纳

2回答

CrawlerRunner不使用钩针抓取页面

、、、

我正在尝试使用CrawlerRunner()从脚本启动一个剪贴画，以便在AWS Lambda中启动。 name = "quotes" urls = [ yield sc

浏览 0提问于2019-01-29得票数 0

2回答

Scrapy和Splash不会爬行

、、、

我做了一个爬虫，splash工作正常(我在我的浏览器中测试了它)，scrapy虽然不能抓取和提取项目。我的实际代码是：import scrapyfrom scrapy.http.headers import Headers start_urls = ( 'http:/

浏览 1提问于2016-01-29得票数 0

1回答

如何让抓取蜘蛛从起始网址下载图片？

、、

start_urls = ['https://image.jpg'] for url in self.start_urls:request = scrapy.Request(url,callback=self.parse) def parse(self, response

浏览 22提问于2020-04-26得票数 0

2回答

使用scrapy抓取网站时“NoneType”对象不可迭代的错误响应

、、

我是新的网络刮刮使用刮痕。我正在尝试刮一个网站(请参考代码中的urls )。从该网站，我试图废除‘%年“表下的信息，并将数据传输到json文件。在执行命令时，当"'NoneType‘对象不可迭代“时，我收到了一个错误： import scrapy name = "quotes" def

浏览 0提问于2018-06-19得票数 0

回答已采纳

2回答

抓取Python -如何传递URL并检索用于抓取的URL

、

我很少有使用python的编程经验，更多的是使用Java。我很难理解如何将脚本中的URL执行传递给我找到的一个刮伤示例。： class UrlScrappyRunner(scrapy.Spider

浏览 5提问于2016-11-28得票数 1

回答已采纳

3回答

与Scrapy一起使用时Selenium web驱动程序实例过多

、、、、

我正在创建一个使用Scrapy和Selenium的网络爬虫。代码如下所示： urls = [/* a very long list of url */] for url in urls: yield scrapy.Request(url

浏览 0提问于2018-03-10得票数 0

1回答

我编写了一个Scrapy中间件，它必须通过scrapy.Request(url).对每个请求使用代理。_ proxy '，None) @classmethod def from_crawler(cls，爬虫)：返回cls(crawler.settings) def process_request(selfs>’% self.chosen_proxy) 在我的settings.py里

浏览 2提问于2020-12-16得票数 1

1回答

刮痕爬行不爬行任何网址

、

这是我的第一个蜘蛛密码。当我在cmd中执行这段代码时。日志显示urls甚至没有被爬行，并且其中没有调试消息。在任何地方都找不到解决这个问题的办法。我不明白是怎么回事。有人能帮我做这个吗。我的代码： name = "quotes_spider" def start_request/page/2&#x

浏览 1提问于2021-06-19得票数 1

回答已采纳

3回答

将抓取的URL从一个爬虫传递到另一个爬虫

、、、

如何将抓取的网址从一个爬行器发送到另一个爬行器的start_urls？ name = 'daily' sitemap_urls= ['http

浏览 30提问于2017-02-23得票数 2

2回答

Scrapy:如何与爬行数据一起存储url_id

、、、

') print("spiderclosed") start_urls = []yield Request(url=

浏览 0提问于2019-03-27得票数 1

回答已采纳

1回答

爬虫获取有关页面的信息(Scrapy)

、

如何实现获取页面所有信息的爬虫(使用SCRAPY)。例如，图像大小、CSS文件大小和保存在.txt文件中(page1.txt，page2.txt)class TestSpider(scrapy.Spider): start_urls = ["http://www.example.com/page1.html", "http://w

浏览 3提问于2017-07-01得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Scrapy spider在队列中监听要抓取的种子urls？

抓取让一只蜘蛛使用另一种蜘蛛所建的属性。

scrapy未处理的异常

在多个网站上使用一个Scrapy爬虫

scrapy.Request没有通过

如何发送在Scrapy中启用的JavaScript和Cookie？

如何在解析过程中更改抓取闭包项计数

如何在不使用"meta“的情况下在Scrapy Parse方法之间同步数据？

CrawlerRunner不使用钩针抓取页面

Scrapy和Splash不会爬行

如何让抓取蜘蛛从起始网址下载图片？

使用scrapy抓取网站时“NoneType”对象不可迭代的错误响应

抓取Python -如何传递URL并检索用于抓取的URL

与Scrapy一起使用时Selenium web驱动程序实例过多

用代理爬行

刮痕爬行不爬行任何网址

将抓取的URL从一个爬虫传递到另一个爬虫

Scrapy:如何与爬行数据一起存储url_id

爬虫获取有关页面的信息(Scrapy)

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐