首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场

抓取API
EN

Stack Overflow用户
提问于 2019-03-19 17:33:33
回答 1查看 157关注 0票数 0

大家早上好,

我试着在这个网站上收集有关汽车的数据:https://www.caramigo.eu/

为此,我需要在主页的搜索栏上启动一个请求,以获取指定的位置和日期。这为我提供了一个如下所示的页面:https://www.caramigo.eu/be/fr/recherche?address=Belgique%2C+Wallonie%2C+Li%C3%A8ge%2C+4000%2C+Li%C3%A8ge&date_debut=22-03-2019&date_fin=23-03-2019

然后,我可以恢复JSON文件中的数据,这要归功于我的web浏览器的开发人员工具,并将其销毁。问题是,每当我发起一个新位置的请求时,JSON文件都会发生变化,并且位于相同的URL (https://www.caramigo.eu/services/car)。

有谁知道如何创建一个爬行器,它将启动一个请求,获取JSON文件,然后将其销毁?或者是关于如何直接更改API上的数据以获取其他位置?

提前感谢!

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-03-20 13:49:16

Scrapy将请求过滤到已经访问过的URL,以避免循环。因为你需要的资源总是使用相同的URL,所以Scrapy会对其进行过滤。

但您可以通过在请求中使用dont_filter=True来禁用它。例如:

代码语言:javascript
运行
复制
yield scrapy.Request(
   url='https://www.caramigo.eu/services/car',
   dont_filter=True,
   callback=self.parse_item
)
票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/55237647

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档