用scrapy抓取api结果页

文章/答案/技术大牛

发布

1回答

、、

action=API&types=geo%2Cnbrhd%2Chotel%2Ctheme_park&legacy_format=true&urlList=true&strictParent=true&queryBA939B3D93510DABB510328CBF3353131516800881576ssid&nearPages=true 每次我使用不同的查询将这个url粘贴到浏览器中时，我都会得到一个很好的JSON结果但是在scrapy或scrapy shell中，我没有得到

浏览 1提问于2018-01-24得票数 1

1回答

为什么我在运行Scrapy时得到空的“消息：”记录输出？

、、、、

我的爬行器运行正常，我设法用例如这样的代码行来控制日志记录：并输出消息到控制台。:43:05 scrapy.extensions.logstats信息:抓取381页( 140页/分钟)，刮掉350项( 136项/分钟) 2017-08-25 13:44:05 scrapy.extensions.logstats信息:爬行688页(每分钟307页

浏览 2提问于2017-08-25得票数 0

1回答

Scrapy Craigslist脚本

、、、、

我想创建一个Scrapy脚本来抓取任何craigslist子域中的计算机音乐会的所有结果:例如：这个查询返回了许多文章的列表，我试图用CrawlSpider和linkExtractor抓取每个结果的标题和href (不仅仅是第一页上的结果)，但没有任何结果，但是脚本什么也没有返回。我会在这里粘贴我的脚本，谢谢 from scrapy.spiders imp

浏览 3提问于2016-03-13得票数 0

1回答

吝啬的剧作家被困在Telnet控制台上监听

、、

我正在做一个练习项目，用刮擦器抓取动态加载的内容，但是我设法撞到了墙，不知道问题出在哪里。爬行器只是拒绝启动爬行过程，被卡在"Telnet控制台监听127.0.0.1:6023“部分上。-11-24 09:58:19 scrapy.extensions.logstats信息:抓取0页(0页/分钟)，0项(0项/分钟)2022-24 09:59:19 scrapy.extensions.logstats信息:抓取0页

浏览 32提问于2022-11-24得票数 1

回答已采纳

1回答

python抓取规则在google结果中进行网络抓取

、、、、

我正在尝试让scrapy (1.0)遍历所有google结果，并且我可以毫不费力地抓取结果的第一页，但是我不能让抓取器遍历下面的页数(我认为这叫做遍历？)。我尝试使用“规则”：但我一直收到错误： NameError: name 'Rule' is

浏览 2提问于2015-07-11得票数 0

1回答

scrapy中的动态start_urls

、

我正在使用scrapy在一个网站上抓取多个页面。变量start_urls用于定义要爬行的页面。我最初会从第一页开始，因此在文件example_spider.py中定义start_urls = [1st page] 在从第一页获得更多信息后，我将确定下一页将被抓取，然后将相应地分配start_urls因此，我必须用对start_urls = [1st page, 2nd page, ..., Kth page]的更改覆盖上面的example_spider.py，然后再次运行抓取</

浏览 1提问于2012-01-10得票数 12

回答已采纳

1回答

抓取解析网页，提取结果页，并下载图像。

、、、、

我已经用python编写了一个web爬虫，使用了Beautiful，并请求为一个项目抓取图像，但是速度很慢。我听说Scrapy要快得多，所以我安装了它并阅读了大量教程，但是我不知道如何在爬行器脚本的parse函数中实现爬虫。如果我提供到搜索结果的第一页的链接，它应该：import sc

浏览 3提问于2020-05-17得票数 1

回答已采纳

1回答

如何在python中使用selenium或scrapy点击“下一步”按钮

、、、、

我正在尝试使用scrapy从flipkart.com中抓取一些数据。除了翻到下一页，我什么都拿到了。首先，我尝试使用scrapy，然后使用selenium。实际上，一个类有上一页和下一页的两个链接。使用scrapy:我无法获取任何结果。我得到的是空白输出。使用selenium:每当我尝试点击下一页时，从第一页到第二页都可以正常工作。但是然后不是转到第三页，而是返回到第二

浏览 45提问于2021-02-10得票数 1

1回答

Scrapy修改cookie

、

我可以用scrapy创建cookie，但无法修改现有的cookie。在我正在工作的电子商务网站中，这个cookie处理邮政编码，每个页面都使用这个邮政编码来修改产品属性。我可以使用selenium修改邮政编码，抓取每一页，但抓取过程太慢。我只想使用scrapy，修改这个请求/响应邮政编码cookie。我可以使用下面的代码根据我的请求创建cookie在spider.py yield scrapy</

浏览 4提问于2020-10-03得票数 0

1回答

Scrapy脚本并不能在电子商务网站页面上获得所有的产品

、

我在同一个站点上使用了不同的页面，结果相同(Ex：)。我用刮壳看看我是否得到了不同的结果，但我只得到前6个链接。该页面源只显示6个链接以及。所以我有点搞不懂到底是什么问题。然而，我找到的大多数答案都说要查找下一页并刮下一页(但这仅适用于具有无限滚动的页面)。其他解决方案提到使用Selenium，但我想它也会有相同的问题，因为我们想要遵循的链接不在页面源上。下面是我为这个页面编写的脚本：import scrapy from scra

浏览 1提问于2018-07-11得票数 0

回答已采纳

1回答

递归地爬行网站及其外部链接，为数据分析项目n Python创建一个图表。

、、、、

我想抓取一个网站，并找到所有的内部和外部链接，分开他们和爬行的外部链接递归，直到它达到一定的深度。我想要这样做，以创建一个网站的所有连接的图表，然后使用中心算法找到中心节点并从那里开始。

浏览 2提问于2017-11-25得票数 0

1回答

Scrapy解析站点的某个部分，并忽略其余部分

、

当我运行我的抓取器时，它从一个站点抓取大约200条记录，而这个站点包含大约250条记录。我找不出我在创建它时所犯的任何错误。任何帮助都将不胜感激。"items.py“包括：class WiseowlItem(scrapy.Item): Url= scrapy.FieldwoVideoListDefaultSeriesTitle"]/a/@href')

浏览 2提问于2017-04-11得票数 0

1回答

刮除内容，但在shell中工作。

、、

我试图用Scrapy 0.22报废物品，当我称它为"scrapy crawl events_cinema“时，这段代码不起作用--它显示了技术信息，没有刮过的内容(抓取0页.等)。问题是，当我在scrapy中测试xpath时，我的意思是"sel.xpath("//a[@class='title_link']/text()").extract()"显示了正确的结果。from

浏览 0提问于2014-02-14得票数 0

回答已采纳

2回答

使用python scrapy抓取同一链接的下一页

、、

我想抓取链接的下一页：https://www.thetoptens.com/animals/，使用scrapy-selenium点击next按钮，但它抓取了链接的第一页。我也尝试过使用webdriver，但显示了相同的结果。使用scrapy-selenium的代码： import scrapyfrom se

浏览 35提问于2020-12-17得票数 1

1回答

Scrappy选择器上的Scrappy迭代

、、、、

我正在尝试抓取一个使用调用HTML的API的网站，因此为此，我需要抓取API，然后从API抓取HTML结果我已经使用这篇文章设法获得了API响应，并从中获得了HTML。resp = json.loads(response.text) selector= scrapy.Selector(text=resp['results'], type="html") 而且它工作得很好items 但是当我应用

浏览 10提问于2020-12-16得票数 1

1回答

我在使用captcha时遇到了并发问题

、、

我正在使用captcha解决api来解决scrapy-splash中的captcha，但是当captcha页面出现时，scrapy在尝试抓取下一页时向api发送请求。这是由于并发造成的。我试过CONCURRENT_REQUESTS=1，但结果是一样的。

浏览 26提问于2019-12-17得票数 0

1回答

如何报废网站上的所有页面(第1页直到无穷大)

、、、、

伙计们，我想从上抓取一切都好，我抓取它的成功import datetimeimport socketfrom scrapy.loader.processors importMapCompose, Joinfrom scrapy<

浏览 1提问于2016-07-25得票数 0

回答已采纳

1回答

如何从多个页面中抓取项目？

、

我正在尝试抓取#页的数据。我已经做了一个可以从一个页面抓取数据的抓取器。但它在刮掉第一页后突然完成了工作# -*- coding: utf-8 -*-import csvfrom scrapy.selector import Selector class Proddduc

浏览 11提问于2019-11-07得票数 1

2回答

重复的请求发布到scrapy* FormRequest*

、、

我正在尝试学习如何在网站上抓取FormRequest的工作方式，我有以下抓取代码：import json payload = {'api_code': 'C123456):

浏览 1提问于2019-08-12得票数 3

1回答

抓取:网页下一步按钮使用WebForm_DoPostBackWithOptions()

、、

我是个新手，正在尝试抓取href="javascript:WebForm_DoPostBackWithOptions(new WebForm_PostBackOptions我正在尝试查找要加载的数据的源(API调用，如果有)，但找不到任何源。如何使用Scrapy导航到下一页并抓取数据。

浏览 3提问于2020-08-12得票数 1

点击加载更多