使用Scrapy将数据传回先前的回调

、

当爬虫访问索引页面时，它将提取观看电影的链接(http://tamnhinso.info/phim/phim-bo/)，然后它将生成获取电影(有多集)的放映页面的请求，从那里它将解析每一集的链接，然后尝试为每一集的之后，爬行器将解析HTML响应以获得每集的视频链接。l.add_xpath('link_1080', "//source[@label='1080']&#x

浏览 15提问于2019-04-18得票数 1

1回答

将值传递给刮伤回调。

、

我正试图开始爬行和抓取一个网站到磁盘，但有困难，使回调功能的工作，我想。传递起始页<e

浏览 2提问于2016-06-02得票数 1

1回答

根据先前要求的结果提出刮擦请求？

、

我正在抓取数据，对于每个用户，我不知道是否会有整个时间段的数据。因此，我想首先调用大量时间块上的API，然后如果有结果，则调用API以在该大块中进行较小的时间增量。我最初尝试只抓取大块的数据，但是API似乎有一些有文档的max记录要显示，有时只显示记录的一部分，从而导致json格式化问题和数据不完整。编写基于先前请求对象的响应对象长度的新请求对象的</em

浏览 1提问于2015-06-02得票数 0

回答已采纳

1回答

从角指令调用父控制器

、

简而言之，我试图将指令中的数据集传回它的父控制器。我已经看到了一些细微差别，但在某个地方，我遗漏了一些东西，而我正在做的事情并不完全奏效。我有一个指令，它接收来自父级的回调定义，如下所示：父控制器中的回<

浏览 1提问于2014-09-25得票数 0

回答已采纳

1回答

解析回调没有定义--简单的Webscraper (Scrapy)仍然没有运行

、、

我试着开始我的刮刀不是从终端，而是从一个脚本。这在没有规则的情况下工作得很好，只需要生成正常的解析函数。一旦我使用规则并将“callback=”解析“”更改为“callback=”“parse_item”，任何事情都不再起作用。 from scrapy.crawler imp

浏览 2提问于2019-11-18得票数 2

回答已采纳

0回答

如何在同一位置使用Scrapy请求和获取响应？

、、

我正在编写抓取爬虫从电子商务网站抓取数据。该网站有颜色的变化，每个变化有自己的价格，大小和库存的大小。要获得变种的价格、尺寸和库存，需要访问变种的链接(颜色)。并且所有数据都需要在一条记录中。我尝试过使用请求，但速度很慢，有时无法加载页面。我已经使用requests.get()编写了爬虫程序，并在scrapy.selector.Selector()和解析数据中使用响应。我

浏览 2提问于2018-07-13得票数 3

1回答

刮擦执行流

、

我试着理解Scrapy的执行，但由于中间使用的生成器而感到困惑。我对生成器几乎不了解，但我无法想象/关联这里的那些东西。下面是刮取文档中的代码1)产量在这里是如何工作的fro

浏览 0提问于2018-04-14得票数 0

回答已采纳

1回答

我在Scrapy教程中遇到了回调语法和一个意外的语法，我想了解这些语法。在下面代码的最后一行中，parse_articles_follow_next_page是一个方法，根据我的想象，我希望在那里传递一个响应参数，如：yield scrapy.Request(url, self.parse_articles_follow_next_page那里应用了什么样的Python语法，这样它就没有括号和传递参数，我在哪里可以读到更多关于它的信息

浏览 0提问于2015-10-13得票数 0

回答已采纳

1回答

为什么需要将授权的OAuth 1.0请求令牌交换为访问令牌？

我想知道OAuth 1.0需要往返于数据提供程序以将授权的请求令牌交换为访问令牌的原因是什么。我对OAuth 1.0工作流程的理解是：请求站点(使用者)从数据提供程序站点获取请求令牌(服务provider).Requesting站点要求数据提供程序站点对用户进行身份验证，并传入回调。一旦用户通过身份验证并授权给请求站点，用户将通过提供的回调<e

浏览 27提问于2010-05-22得票数 17

回答已采纳

2回答

Scrapy在搜索长长的urls列表时遇到困难

、

我正在抓取一个很大的urls列表(1000-ish)，在设定的时间之后，爬虫被困在爬行0页/分钟。爬行时，问题总是出现在同一地点。从MySQL数据库中检索urls列表。我对python和scrapy相当陌生，所以我不知道从哪里开始调试，我担心由于我缺乏经验，代码本身也有点乱。任何指向问题所在的指针都是值得感谢的。我过去常常一次检索整个urls列表，爬虫工作得很好。然而，我在将结果写回数据库时遇到了问题，我不想将整个大的ur

浏览 19提问于2019-01-14得票数 2

1回答

在这种情况下，$(“#myDiv”).html(MyResult)有什么更好的替代方案？

、、

我目前正在使用Ajax更新信息提要。Ajax应该将添加到当前的结果列表中，而不是替换现有的结果。到目前为止，我已经创建了从数据库中获取数据所需的Ajax，但是在回调函数中，我使用了以下回调函数 if(fetchPosts.readyState === 4) { $("#resultfeed&qu

浏览 3提问于2016-09-13得票数 2

回答已采纳

2回答

理解粗糙的框架体系结构

、、、

我最初的想法是在process_links上使用rule参数，并在它所指向的函数中生成items。我可以在process_links函数中建立数据库连接并直接写入数据数据库，但当scrapy通过Twisted内置异步数据库事务处理时，这并不是正确的方法。我可以尝试将项从process_links函数传递到callback函数，但我不确定这两个函数之间的关系。一个用于生成项，另一个接收列表并返回一个列

浏览 5提问于2015-12-16得票数 4

1回答

到linux移植:如何替换__stdcall？

、、

我正在将我的应用程序从Windows移植到Linux。在Windows中，我定义了这样的回调typedef void (__stdcall * OrdersCallback)(orders*);。__stdcall OrdersHandler(orders* param) {}; 我将指向这个处理程序的指针从我的应用程序传递到静态链接库，这样库就可以将<

浏览 3提问于2014-09-17得票数 1

回答已采纳

2回答

如何处理一个残缺项目中的各种异常，在errback和callback中？

、

我目前正在做一个刮板项目，这对于确保每个请求都得到了正确的处理非常重要，也就是说，要么记录错误，要么保存成功的结果。我已经实现了基本的爬行器，现在我可以成功地处理99%的请求，但我可能会得到像captcha、50x、30x这样的错误，甚至在结果中没有足够的字段(然后我将尝试另一个网站来查找缺少的字段)。起初，我认为在解析回调中引发异常并在errback中处理它们更“合乎逻辑”，这可以使代码更具可读性。但我只想找出er

浏览 1提问于2012-06-17得票数 11

1回答

我不能将从API检索出来的数据传递回传递给app.get的回调。

、、、

我从github中检索了数据。然后我想把它寄给客户。我正在传递一个成功接收数据的回调，但我不知道如何将检索到的数据传回给传递给get方法的回调，以便将其传递给客户端let GitHubApi = require

浏览 0提问于2016-03-13得票数 0

回答已采纳

1回答

在scrapy.Request中添加dont_filter=True参数是如何使我的解析方法工作的？

、、

这是一个简单的抓取蜘蛛 name = "dmoz"但在scrapy文档和许多youtube教程中给出的示例中，他们从未在scrapy.Reques

浏览 1提问于2016-08-15得票数 8

回答已采纳

1回答

部署失败，因为具有Scrapinghub的多个爬行器

、、

我使用scrapy创建了一个项目并将数据保存到我的mongodb中。它能行得通。下面是我的代码：import scrapyimport time # -

浏览 0提问于2018-03-17得票数 1

1回答

我来自C++背景，试图从Scrapy框架中理解回调在这个函数中做了什么

、、

我正在学习基本的Scrapy教程，并且有一些有限的python经验。这看起来像是一个递归函数，我对发生了什么有一些疑问。这是在剪贴画教程中： if next_page is not None: yield scrapy.Request(next_page, cal

浏览 0提问于2019-01-03得票数 0

1回答

Scrapy: CrawlSpider在为其他域工作时不对特定域执行回调

、、、

我试图从中删除NBA的历史数据。我不知道这是为什么。建议？import scrapyfrom scrapy.spiders import CrawlSpider, Rule fromscrapy.linkextractors impor

浏览 2提问于2022-07-14得票数 0

1回答

在成员-数据，什么时候在生命周期是一个新创建的记录的id可用？

、

在成员数据中使用RESTAdapter。我在服务器上创建了一个记录，我需要获得新创建的记录的id。这个id从服务器上传回，我可以在返回的json中看到它。但是，在‘s模型的didCreate()回调中，this.get('id')是未定义的。didCommit回调似乎不会在createRecord()之后被调用，所以我不确定在生命周期回

浏览 5提问于2012-10-12得票数 3

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

将值传递给刮伤回调。

根据先前要求的结果提出刮擦请求？

从角指令调用父控制器

解析回调没有定义--简单的Webscraper (Scrapy)仍然没有运行

如何在同一位置使用Scrapy请求和获取响应？

刮擦执行流

在Python (Scrapy)语法中将方法作为参数传递

为什么需要将授权的OAuth 1.0请求令牌交换为访问令牌？

Scrapy在搜索长长的urls列表时遇到困难

在这种情况下，$(“#myDiv”).html(MyResult)有什么更好的替代方案？

理解粗糙的框架体系结构

到linux移植:如何替换__stdcall？

如何处理一个残缺项目中的各种异常，在errback和callback中？

我不能将从API检索出来的数据传递回传递给app.get的回调。

在scrapy.Request中添加dont_filter=True参数是如何使我的解析方法工作的？

部署失败，因为具有Scrapinghub的多个爬行器

我来自C++背景，试图从Scrapy框架中理解回调在这个函数中做了什么

Scrapy: CrawlSpider在为其他域工作时不对特定域执行回调

在成员-数据，什么时候在生命周期是一个新创建的记录的id可用？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐