Scrapy -通过循环JSON文件进行多次请求

、

城市的名称存储在一个JSON文件中。下面是我的代码： import scrapy

浏览 43提问于2019-04-01得票数 0

回答已采纳

1回答

刮擦发送多个请求

、、

我正在编写一个代码，它必须在任何时候从远程Json文件中读取和处理日期和时间信息。我编写的代码如下： name = 'getTime' for i in range(5): print(

浏览 2提问于2022-04-22得票数 1

回答已采纳

2回答

Python网络爬行和抓取

、、、、

我正在写一个飞毛腿蜘蛛，通过一个旅游网站。import scrapy name = "world" yieldcontinent_response.follow(continent_respons

浏览 10提问于2017-06-14得票数 2

回答已采纳

2回答

刮痕正在关闭我的蜘蛛，而循环还没有结束

、

我正在运行一个非常简单的scrapy循环，在行https://api.ipify.org/中多次查询。class IpSpider(scrapy.Spider): n = 02022-09-01 08:43:38 [scrapy.statscollectors]

浏览 20提问于2022-09-01得票数 0

回答已采纳

1回答

抓取API

、、、、

大家早上好,为此，我需要在主页的搜索栏上启动一个请求，以获取指定的位置和日期。这为我提供了一个如下所示的页面：有谁知道如何创建一个爬行器，它将启动一个请求，获取JSON文件，然后将其销毁？

浏览 4提问于2019-03-19得票数 0

回答已采纳

2回答

如何忽略Scrapy中已经爬行的URL

、、、

我仍然在探索requests.seen文件，看看是否可以操作它。

浏览 0提问于2013-12-06得票数 1

回答已采纳

2回答

使scrapyd覆盖文件

、、

我正在寻找一种在scrapyd中设置作业的方法，它在本地创建一个文件，然后在下一次爬网时覆盖它的内容，而不是附加它。据我所知，只有使用scrapy我才能使用这个命令但是似乎没有办法在

浏览 9提问于2018-12-03得票数 1

1回答

在刮伤中，已经被跟踪的链接会发生什么？

、、

它可以多次找到相同的链接，但我知道默认情况下，在最后版本的scrapy中，已经遵循的链接不再被遵循。这是真的吗？我找不到很多关于这件事的信息。如果这是真的，它会停止爬行，当所有可能的链接已经用尽，因此每个产生的请求是重复的？

浏览 1提问于2022-05-25得票数 -1

回答已采纳

2回答

在scrapy中从多个文件中刮取多个地址

、、、

我在目录中有一些JSON文件。在任何这些文件中，我都需要一些信息。我需要的第一个属性是"start_urls“的链接列表。我该怎么做？到目前为止，我的代码如下：from os import listdir from os.path import is

浏览 2提问于2018-01-05得票数 1

回答已采纳

2回答

使用Scrapy，如何在Ajax后面以JSON字符串的形式获取响应体？

、、、、

我在这里发布了我的代码来寻求帮助，我只是想获得JSON字符串格式的响应体数据，但在多次尝试后都没有成功。# coding: utf8 from scrapy.spider import BaseSpider datas = json.loads0.84

浏览 0提问于2013-12-23得票数 0

1回答

当dont_filter=False时，刮掉请求回调不起作用

、、、

我正在使用Scrapy1.1.0和Python3.5来从一个网站抓取数据。下面的代码正在工作..。class ImdbSpider(scrapy.Spider): allowed_domains = ["http://www.imdb.com"]link = "http://www.imdb.com/title/" + recommendId

浏览 2提问于2016-07-15得票数 1

2回答

等待Scapy回调函数

、、、

我对一般的Scrapy和Python都很陌生。以下是代码：import json name = 'mooc' raw = response.body data = json.loads首先发出

浏览 3提问于2020-12-03得票数 1

回答已采纳

1回答

用POST方法提出要求

、、

我正在尝试使用Scrapy从"“中抓取产品列表。import scrapy name = "intel_eg_eastasiaeg_com_py"

浏览 3提问于2016-08-18得票数 3

回答已采纳

1回答

本教程使用请求URL来获取一个非常完整和干净的JSON文件，但仅针对第一个页面执行此操作。似乎循环浏览我121页的小房子列表请求url应该是相当简单的，但我还没能让任何东西工作。本教程不会遍历请求url的页面，而是使用scrapy splash，在Docker容器中运行以获取所有清单。我很愿意尝试一下，但我只是觉得应该可以遍历这个请求url。这只输出我的项目的tinyhouselistings请求url的第一页： import <em

浏览 31提问于2020-04-26得票数 0

回答已采纳

1回答

如何从for循环转到下面的链接？

、、

我正在使用scrapy报废一个网站，我在一个循环中，每个项目都有我想去的链接，每次在循环中。import scrapy name = 'My_Domain' print(url) print('******************

浏览 12提问于2019-04-27得票数 0

回答已采纳

1回答

scrapy + selenium：<a>标记没有href，但内容由javascript加载

、、

我第一次尝试使用scrapy，selenium从加载了javascript内容的网站收集数据，就快完成了。下面是我的代码： # -*- coding: utf-8 -*-from selenium import webdriverfrom scrapy.http import Requestimport time classFre

浏览 56提问于2020-07-12得票数 0

1回答

在同一个URL上多次运行Scrapy

、、、

这段代码在scrapy crawl the中只运行一次，不过我希望它会因为last语句而运行得更多。name = 'the'start_urlsinfo next_page = 'https://websiteiwannacra

浏览 0提问于2018-04-14得票数 2

回答已采纳

2回答

结果不保存为json格式。

、、

我正在使用scrapy并运行以下脚本： import scrapyfrom scrapy.http.request import Requestclass SizeerSpiderSpider(scrapy.Spider): pg = 0 start_urlsself.currentPg) self.currentPg +=

浏览 32提问于2020-09-23得票数 0

回答已采纳

1回答