大家早上好,
我试着在这个网站上收集有关汽车的数据:https://www.caramigo.eu/
为此,我需要在主页的搜索栏上启动一个请求,以获取指定的位置和日期。这为我提供了一个如下所示的页面:https://www.caramigo.eu/be/fr/recherche?address=Belgique%2C+Wallonie%2C+Li%C3%A8ge%2C+4000%2C+Li%C3%A8ge&date_debut=22-03-2019&date_fin=23-03-2019
然后,我可以恢复JSON文件中的数据,这要归功于我的web浏览器的开发人员工具,并将其销毁。问题是,每当我发起一个新位置的请求时,JSON文件都会发生变化,并且位于相同的URL (https://www.caramigo.eu/services/car)。
有谁知道如何创建一个爬行器,它将启动一个请求,获取JSON文件,然后将其销毁?或者是关于如何直接更改API上的数据以获取其他位置?
提前感谢!
发布于 2019-03-20 13:49:16
Scrapy将请求过滤到已经访问过的URL,以避免循环。因为你需要的资源总是使用相同的URL,所以Scrapy会对其进行过滤。
但您可以通过在请求中使用dont_filter=True
来禁用它。例如:
yield scrapy.Request(
url='https://www.caramigo.eu/services/car',
dont_filter=True,
callback=self.parse_item
)
https://stackoverflow.com/questions/55237647
复制相似问题