腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
使用
Scrapy
将
数据
传回
先前
的
回
调
、
当爬虫访问索引页面时,它将提取观看电影
的
链接(http://tamnhinso.info/phim/phim-bo/),然后它将生成获取电影(有多集)
的
放映页面的请求,从那里它将解析每一集
的
链接,然后尝试为每一集
的
之后,爬行器
将
解析HTML响应以获得每集
的
视频链接。l.add_xpath('link_1080', "//source[@label='1080']
浏览 15
提问于2019-04-18
得票数 1
1
回答
将
值传递给刮伤
回
调
。
、
我正试图开始爬行和抓取一个网站到磁盘,但有困难,使
回
调
功能
的
工作,我想。 传递起始页<e
浏览 2
提问于2016-06-02
得票数 1
1
回答
根据
先前
要求
的
结果提出刮擦请求?
、
我正在抓取
数据
,对于每个用户,我不知道是否会有整个时间段
的
数据
。因此,我想首先调用大量时间块上
的
API,然后如果有结果,则调用API以在该大块中进行较小
的
时间增量。我最初尝试只抓取大块
的
数据
,但是API似乎有一些有文档
的
max记录要显示,有时只显示记录
的
一部分,从而导致json格式化问题和
数据
不完整。编写基于
先前
请求对象
的
响应对象长度
的
新请求对象
的</em
浏览 1
提问于2015-06-02
得票数 0
回答已采纳
1
回答
从角指令调用父控制器
、
简而言之,我试图
将
指令中
的
数据
集
传回
它
的
父控制器。我已经看到了一些细微差别,但在某个地方,我遗漏了一些东西,而我正在做
的
事情并不完全奏效。我有一个指令,它接收来自父级
的
回
调
定义,如下所示:父控制器中
的
回
<
浏览 1
提问于2014-09-25
得票数 0
回答已采纳
1
回答
解析
回
调
没有定义--简单
的
Webscraper (
Scrapy
)仍然没有运行
、
、
我试着开始我
的
刮刀不是从终端,而是从一个脚本。这在没有规则
的
情况下工作得很好,只需要生成正常
的
解析函数。一旦我
使用
规则并将“callback=”解析“”更改为“callback=”“parse_item”,任何事情都不再起作用。 from
scrapy
.crawler imp
浏览 2
提问于2019-11-18
得票数 2
回答已采纳
0
回答
如何在同一位置
使用
Scrapy
请求和获取响应?
、
、
我正在编写抓取爬虫从电子商务网站抓取
数据
。该网站有颜色
的
变化,每个变化有自己
的
价格,大小和库存
的
大小。要获得变种
的
价格、尺寸和库存,需要访问变种
的
链接(颜色)。并且所有
数据
都需要在一条记录中。我尝试过
使用
请求,但速度很慢,有时无法加载页面。 我已经
使用
requests.get()编写了爬虫程序,并在
scrapy
.selector.Selector()和解析
数据
中
使用
响应。我
浏览 2
提问于2018-07-13
得票数 3
1
回答
刮擦执行流
、
我试着理解
Scrapy
的
执行,但由于中间
使用
的
生成器而感到困惑。我对生成器几乎不了解,但我无法想象/关联这里
的
那些东西。下面是刮取文档中
的
代码1)产量在这里是如何工作
的
fro
浏览 0
提问于2018-04-14
得票数 0
回答已采纳
1
回答
在Python (
Scrapy
)语法中将方法作为参数传递
、
我在
Scrapy
教程中遇到了
回
调
语法和一个意外
的
语法,我想了解这些语法。在下面代码
的
最后一行中,parse_articles_follow_next_page是一个方法,根据我
的
想象,我希望在那里传递一个响应参数,如:yield
scrapy
.Request(url, self.parse_articles_follow_next_page那里应用了什么样
的
Python语法,这样它就没有括号和传递参数,我在哪里可以读到更多关于它
的
信息
浏览 0
提问于2015-10-13
得票数 0
回答已采纳
1
回答
为什么需要将授权
的
OAuth 1.0请求令牌交换为访问令牌?
我想知道OAuth 1.0需要往返于
数据
提供程序以
将
授权
的
请求令牌交换为访问令牌
的
原因是什么。我对OAuth 1.0工作流程
的
理解是: 请求站点(
使用
者)从
数据
提供程序站点获取请求令牌(服务provider).Requesting站点要求
数据
提供程序站点对用户进行身份验证,并传入
回
调
。一旦用户通过身份验证并授权给请求站点,用户
将
通过提供
的
回
调
<e
浏览 27
提问于2010-05-22
得票数 17
回答已采纳
2
回答
Scrapy
在搜索长长
的
urls列表时遇到困难
、
我正在抓取一个很大
的
urls列表(1000-ish),在设定
的
时间之后,爬虫被困在爬行0页/分钟。爬行时,问题总是出现在同一地点。从MySQL
数据
库中检索urls列表。我对python和
scrapy
相当陌生,所以我不知道从哪里开始调试,我担心由于我缺乏经验,代码本身也有点乱。任何指向问题所在
的
指针都是值得感谢
的
。 我过去常常一次检索整个urls列表,爬虫工作得很好。然而,我在
将
结果写回
数据
库时遇到了问题,我不想将整个大
的
ur
浏览 19
提问于2019-01-14
得票数 2
1
回答
在这种情况下,$(“#myDiv”).html(MyResult)有什么更好
的
替代方案?
、
、
我目前正在
使用
Ajax更新信息提要。Ajax应该
将
添加到当前
的
结果列表中,而不是替换现有的结果。到目前为止,我已经创建了从
数据
库中获取
数据
所需
的
Ajax,但是在
回
调
函数中,我
使用
了以下回
调
函数 if(fetchPosts.readyState === 4) { $("#resultfeed&qu
浏览 3
提问于2016-09-13
得票数 2
回答已采纳
2
回答
理解粗糙
的
框架体系结构
、
、
、
我最初
的
想法是在process_links上
使用
rule参数,并在它所指向
的
函数中生成items。我可以在process_links函数中建立
数据
库连接并直接写入
数据
数据
库,但当
scrapy
通过Twisted内置异步
数据
库事务处理时,这并不是正确
的
方法。我可以尝试
将
项从process_links函数传递到callback函数,但我不确定这两个函数之间
的
关系。一个用于生成项,另一个接收列表并返回一个列
浏览 5
提问于2015-12-16
得票数 4
1
回答
到linux移植:如何替换__stdcall?
、
、
我正在将我
的
应用程序从Windows移植到Linux。在Windows中,我定义了这样
的
回
调
typedef void (__stdcall * OrdersCallback)(orders*);。__stdcall OrdersHandler(orders* param) {}; 我
将
指向这个处理程序
的
指针从我
的
应用程序传递到静态链接库,这样库就可以
将<
浏览 3
提问于2014-09-17
得票数 1
回答已采纳
2
回答
如何处理一个残缺项目中
的
各种异常,在errback和callback中?
、
我目前正在做一个刮板项目,这对于确保每个请求都得到了正确
的
处理非常重要,也就是说,要么记录错误,要么保存成功
的
结果。我已经实现了基本
的
爬行器,现在我可以成功地处理99%
的
请求,但我可能会得到像captcha、50x、30x这样
的
错误,甚至在结果中没有足够
的
字段(然后我
将
尝试另一个网站来查找缺少
的
字段)。起初,我认为在解析
回
调
中引发异常并在errback中处理它们更“合乎逻辑”,这可以使代码更具可读性。但我只想找出er
浏览 1
提问于2012-06-17
得票数 11
1
回答
我不能将从API检索出来
的
数据
传递回传递给app.get
的
回
调
。
、
、
、
我从github中检索了
数据
。然后我想把它寄给客户。我正在传递一个成功接收
数据
的
回
调
,但我不知道如何
将
检索到
的
数据
传回
给传递给get方法
的
回
调
,以便将其传递给客户端let GitHubApi = require
浏览 0
提问于2016-03-13
得票数 0
回答已采纳
1
回答
在
scrapy
.Request中添加dont_filter=True参数是如何使我
的
解析方法工作
的
?
、
、
这是一个简单
的
抓取蜘蛛 name = "dmoz"但在
scrapy
文档和许多youtube教程中给出
的
示例中,他们从未在
scrapy
.Reques
浏览 1
提问于2016-08-15
得票数 8
回答已采纳
1
回答
部署失败,因为具有Scrapinghub
的
多个爬行器
、
、
我
使用
scrapy
创建了一个项目并将
数据
保存到我
的
mongodb中。它能行得通。下面是我
的
代码:import
scrapy
import time # -
浏览 0
提问于2018-03-17
得票数 1
1
回答
我来自C++背景,试图从
Scrapy
框架中理解
回
调在这个函数中做了什么
、
、
我正在学习基本
的
Scrapy
教程,并且有一些有限
的
python经验。这看起来像是一个递归函数,我对发生了什么有一些疑问。这是在剪贴画教程中: if next_page is not None: yield
scrapy
.Request(next_page, cal
浏览 0
提问于2019-01-03
得票数 0
1
回答
Scrapy
: CrawlSpider在为其他域工作时不对特定域执行
回
调
、
、
、
我试图从中删除NBA
的
历史
数据
。我不知道这是为什么。建议?import
scrapy
from
scrapy
.spiders import CrawlSpider, Rule from
scrapy
.linkextractors impor
浏览 2
提问于2022-07-14
得票数 0
1
回答
在成员-
数据
,什么时候在生命周期是一个新创建
的
记录
的
id可用?
、
在成员
数据
中
使用
RESTAdapter。我在服务器上创建了一个记录,我需要获得新创建
的
记录
的
id。这个id从服务器上
传回
,我可以在返回
的
json中看到它。但是,在‘s模型
的
didCreate()
回
调
中,this.get('id')是未定义
的
。didCommit
回
调
似乎不会在createRecord()之后被调用,所以我不确定在生命周期
回
浏览 5
提问于2012-10-12
得票数 3
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
腾讯广点通-如何让回传回调更方便灵活,API转化归因回传数据,
Python爬虫学习Scrapy之Spiders
爬虫你可能都会用,但是背后的架构你真的懂了吗?
Python爬虫很简单,真正的这些隐藏的知识你都懂吗?
爬虫可能都会用,但是背后的架构你真的懂了吗?
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券