Scrapy: post请求的分页不起作用

、、

我正在尝试从这个网站中提取：，爬虫没有任何错误，但它不做我传递的有效负载的分页。我只能返回同一页。我尝试使用json库来配置我的有效负载，但是有效负载本身并不在json中。请帮帮忙。import scrapy name = 'mrlodge_spider' def start_requests""".format(pageNumber)

浏览 29提问于2019-07-05得票数 0

回答已采纳

1回答

按照页面的每个链接和刮除内容，Scrapy + Selenium

、、

是我正在做的网站。在每一页上，有18个帖子在一个表格中。我想访问每一篇文章，并刮它的内容，并重复这个头5页。现在我怀疑

浏览 1提问于2016-01-23得票数 1

回答已采纳

2回答

Scrapy跟随分页AJAX请求- POST

、、、、

到目前为止，我的蜘蛛爬行第一页并刮那些项目，但当涉及到分页，它不跟随链接。但是当我试图在浏览器上打开它时，上面写着 import

浏览 1提问于2015-05-12得票数 4

回答已采纳

1回答

scrapy不能爬行页面中的所有链接

、、、

我正在尝试scrapy来抓取ajax网站。我检查页面的元素。它看起来是这样的：，所以我想提取与模式/存储/应用程序/详细信息的所有链接?现在，我可以抓取前120个链接与淀粉修改和“格式数据”添加的人告诉我，但没有更多的链接之后。有人能帮我吗？

浏览 5提问于2016-02-09得票数 1

1回答

将Python请求转换为Python请求时，request.post()无法工作

、、、

我有简单的邮政请求代码。('param1', '0'), ('param3', '8347915011'),它给了我URL不能处理POST请求的响应FormRequest(url='https:/&#

浏览 5提问于2017-04-07得票数 0

1回答

Scrapy:如何开始从使用Javascript的搜索结果中抓取数据

、、

我是新手使用scrapy和python我想开始从搜索结果中抓取数据，如果你会加载页面默认内容将会出现，我需要抓取的是过滤后的内容，同时做分页？下面是我需要从时间过滤器中抓取项目的URL："Today“我所做的就是这些，但更多的是关于布局结构。class TmcnfSpider(scrapy.Spider):allowed_domains

浏览 1提问于2019-05-10得票数 0

1回答

Scrapy:如何使用start_requests向每个请求添加参数？

我正在使用scrapy 2.1，我从分类页面中抓取内容，这些页面被分页。默认结果集是20，我希望将其增加到1000，以便请求查看器页面。/category1 callback= 'parse_item' )def start_requests(self): for ur

浏览 16提问于2020-06-01得票数 0

2回答

Scrapy分页不起作用，优化了爬行器

、

请帮我优化我的抓取蜘蛛。特别是下一页分页不起作用。有很多页每页有50个项目。我在parse_items中捕获了第一页的50个项目(链接)，下一页的项目也在parse_items中被丢弃。import scrapyfrom fake_useragent import UserAgent release = Field() i

浏览 1提问于2018-03-05得票数 0

回答已采纳

1回答

如何在没有请求的情况下在Scrapy中让步？

、

我正在尝试用Scrapy 2.4抓取已定义的URL列表，其中每个URL最多可以有5个我想要遵循的分页URL。现在系统也正常工作了，我确实有一个额外的请求想要摆脱：这些页面完全相同，但具有不同的URL： example.html example.thml?pn=1 在我的代码中的某个地方，我做了这个额外的请求，但我不知道如何抑制它。这是工作代码：定义一堆要抓取的URL： sta

浏览 15提问于2020-12-23得票数 0

2回答

Scrapy:谁能告诉我为什么这段代码不能让我抓取后面的页面？

、

我是一个初学者，正在学习如何在Python中使用Scrapy进行网络抓取。有人能指出哪里出了问题吗？我的目标是抓取所有后续的页面。from indeed.items import IndeedItem name = "indnext_page_extension is not None: next_page = response.urljoin(next_page_

浏览 27提问于2021-04-25得票数 3

1回答

scrapy停止对被寻址的元素进行刮取。

、、

这是我的蜘蛛密码和我拿到的日志。问题是，蜘蛛似乎停止了从第10页中的某个地方抓取内容(而需要刮掉352页)。当我检查其余元素的XPath表达式时，我在浏览器中发现它们是相同的。这是我的蜘蛛import scrapyimport urllib.parse l

浏览 5提问于2021-12-04得票数 0

回答已采纳

1回答

转到showthread.php上带有刮痕的下一页

、、、

在大约4天的时间里，我被困在进入下一页时，获取showthread.php (论坛基于vBul公报)。我的目标：from scrapy.spiders import CrawlSpider, Rule

浏览 5提问于2015-07-01得票数 0

回答已采纳

1回答

Scrapy在分页中提供模棱两可的结果

、、、

我已经创建了一个可以分页的抓取蜘蛛。使用相同的脚本与不同的链接，从相同的网站和分页被“过滤异地请求”停止。在scrapy中打开功能"dont_filter“会在页面上运行infity循环。想知道脚本如何在不做任何更改的情况下提供不同的结果？

浏览 10提问于2020-10-21得票数 0

回答已采纳

1回答

使用curl抓取大页面

、、

我正在尝试从一个流行的新闻网站上收集评论，以便使用curl进行学术研究。对于评论少于300条的文章，它可以很好地工作，但在此之后，它就会陷入困境。handle);目前，这个页面运行良好：为什么它在拥有大量评论的文章中苦苦挣扎

浏览 2提问于2012-08-23得票数 0

2回答

将链接请求合并为一个

、、

然后当我找到我想要的物品时，我会把它加到篮子里。 method='POST',', callback=self.final, method='POST'

浏览 2提问于2018-06-11得票数 0

回答已采纳

2回答

我可以使用scrapy来点击没有href但有onclick属性的按钮吗？

、、、、

我是Scrapy的新手，我遇到了一个问题。我正在尝试从使用此类型按钮的网页中提取信息： <a id="" href="#" ... onclick="function()..."

浏览 38提问于2021-07-21得票数 0

2回答

刮擦分页在多个列表上失败

、

当我刮到一个特定的页面时，分页抓取是有效的，但是当我尝试用一次跳转分页刮掉所有的页面时，分页就不起作用了。# -*- coding: utf-8 -*- from scrapy.loader.processors import MapCompose, Joinfr

浏览 1提问于2018-09-18得票数 1

回答已采纳

1回答

擦伤链接提取器忽略符号#后面的参数，因此不会跟随链接

我正试图抓取一个网站的刮痕，其中的分页是后面的标志"#“。这在某种程度上使刮刮忽略了字符后面的所有内容，并且总是只看到第一页。 start_urls = [

浏览 2提问于2019-01-06得票数 0

回答已采纳

1回答

如何根据给定的条件发送刮伤请求

、、、

如果URL包含分页，我想发送一个Scrapy请求到URL，否则我想从先前的请求返回先前的响应。我试着在下面的代码中实现这一点，但是我没有得到想要的结果。例如，带有和不带分页的url如下所示。我向第二个URL发送了一个请求，因为它包含分页，而对于第一个URL，我只想返回先前的响应。我在process_link函数中实现了这个逻辑，但是我发现我只能从get_content函数

浏览 7提问于2022-08-04得票数 -1

1回答

试图在python中读取带有刮痕的分页asp页

、、、

蜘蛛工作在第一页的工作人员，但我似乎无法让它工作在第二或第三页。我打开了开发人员工具，并复制了当您单击其中一个分页链接时发送的请求，然后尝试在蜘蛛中复制该请求。我似乎遇到的问题是，对该请求的响应只返回整个页面的代码子集(仅返回该页面的人员)，而不是像随附的javascript那样的所有内容。因此，当它被传递到splash上时，它没有创建动态代码所需的脚本。我还注意到，请求似乎包含R

浏览 4提问于2020-03-15得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

按照页面的每个链接和刮除内容，Scrapy + Selenium

Scrapy跟随分页AJAX请求- POST

scrapy不能爬行页面中的所有链接

将Python请求转换为Python请求时，request.post()无法工作

Scrapy:如何开始从使用Javascript的搜索结果中抓取数据

Scrapy:如何使用start_requests向每个请求添加参数？

Scrapy分页不起作用，优化了爬行器

如何在没有请求的情况下在Scrapy中让步？

Scrapy:谁能告诉我为什么这段代码不能让我抓取后面的页面？

scrapy停止对被寻址的元素进行刮取。

转到showthread.php上带有刮痕的下一页

Scrapy在分页中提供模棱两可的结果

使用curl抓取大页面

将链接请求合并为一个

我可以使用scrapy来点击没有href但有onclick属性的按钮吗？

刮擦分页在多个列表上失败

擦伤链接提取器忽略符号#后面的参数，因此不会跟随链接

如何根据给定的条件发送刮伤请求

试图在python中读取带有刮痕的分页asp页

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐