腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如何
使用
Scrapy
抓取
此
页
面的
内容
?
、
、
谁能告诉我
如何
从这个页面刮数据(姓名和数字)
使用
Scrapy
。数据是动态加载的。但“网络”选项卡中没有任何
内容
。在哪种情况下,“网络”选项卡有用?我是个初学者。
浏览 5
提问于2021-09-01
得票数 0
1
回答
需要帮助
使用
Scrapy
抓取
此
页
面的
内容
、
、
请有人告诉我
如何
使用
Scrapy
从这个页面中刮取数据(姓名和数字)。数据是动态加载的。如果您检查Network,您将找到一个的POST请求。所以我把它复制为cURL,并通过邮递员发送请求。但我错了。
浏览 1
提问于2021-09-17
得票数 0
回答已采纳
1
回答
抓取
:网页下一步按钮
使用
WebForm_DoPostBackWithOptions()
、
、
我是个新手,正在尝试
抓取
href="javascript:WebForm_DoPostBackWithOptions(new WebForm_PostBackOptions
如何
使用
Scrapy
导航到下一
页
并
抓取
数据。
浏览 3
提问于2020-08-12
得票数 1
1
回答
使用
Selenium和
Scrapy
通过onclick
抓取
显示的数据
、
、
我
使用
Scrapy
用python编写了一个脚本,以便
使用
身份验证从网站上
抓取
数据。我正在
抓取
的页面真的很痛苦,因为主要是由javascript和AJAX请求组成的。页
面的
所有主体都放在允许
使用
submit按钮更改页
面的
<form>中。URL不会改变(而且是一个.aspx)。我已经成功地从第一
页
抓取
了所需的所有数据,然后
使用
以下代码更改了单击
此
输入按钮的页面:
浏览 38
提问于2019-02-21
得票数 0
1
回答
为什么我在运行
Scrapy
时得到空的“消息:”记录输出?
、
、
、
、
:43:05
scrapy
.extensions.logstats信息:
抓取
381
页
( 140
页
/分钟),刮掉350项( 136项/分钟) 2017-08-25 13:44:05
scrapy
.extensions.logstats信息:爬行688
页
(每分钟307
页
),刮除659项( 309项/分) 2017-08-25 13:45:05
scrapy
.extensions.logstats信息:
抓取
99
浏览 2
提问于2017-08-25
得票数 0
1
回答
Scrapy
修改cookie
、
我可以用
scrapy
创建cookie,但无法修改现有的cookie。在我正在工作的电子商务网站中,这个cookie处理邮政编码,每个页面都
使用
这个邮政编码来修改产品属性。我可以
使用
selenium修改邮政编码,
抓取
每一
页
,但
抓取
过程太慢。我只想
使用
scrapy
,修改这个请求/响应邮政编码cookie。我可以
使用
下
面的
代码根据我的请求创建cookie 在SETTINGS.PY中COOKIES_ENABLED
浏览 4
提问于2020-10-03
得票数 0
2
回答
递归
使用
Scrapy
从网站
抓取
网页
、
、
我最近开始
使用
Scrapy
。我正在尝试从一个被分成几页(大约50
页
)的大列表中收集一些信息。我可以很容易地从第一
页
中提取我想要的
内容
,包括start_urls列表中的第一
页
。但是,我不想将这50个页
面的
所有链接都添加到这个列表中。我需要一种更有活力的方式。有人知道我
如何
迭代地
抓取
网页吗?有谁有这样的例子吗? 谢谢!
浏览 7
提问于2011-02-03
得票数 1
1
回答
吝啬的剧作家被困在Telnet控制台上监听
、
、
我正在做一个练习项目,用刮擦器
抓取
动态加载的
内容
,但是我设法撞到了墙,不知道问题出在哪里。爬行器只是拒绝启动爬行过程,被卡在"Telnet控制台监听127.0.0.1:6023“部分上。-11-24 09:58:19
scrapy
.extensions.logstats信息:
抓取
0
页
(0
页
/分钟),0项(0项/分钟)2022-24 09:59:19
scrapy
.extensions.logstats信息:
抓取
0
页
浏览 32
提问于2022-11-24
得票数 1
回答已采纳
1
回答
如何
在
Scrapy
中有条件地重试和重新整理当前页面?
、
、
我是
Scrapy
的新手,对Python也不是很熟悉。我已经设置了一个
抓取
器来从网站上
抓取
数据,但是虽然我
使用
的是代理,但如果同一个代理被
使用
太多次,那么我的请求就会显示一个页面,告诉我访问太多页面太快(HTTP状态代码200)。因为我的
抓取
器看到的是页
面的
状态代码为on,它找不到所需的数据并移动到下一
页
。 我可以确定何时通过HtmlXPathSelector显示这些页面,但是我
如何
通知
Scrapy
重试该页面呢?
浏览 1
提问于2013-03-25
得票数 3
回答已采纳
1
回答
scrapy
中的动态start_urls
、
我正在
使用
scrapy
在一个网站上
抓取
多个页面。变量start_urls用于定义要爬行的页面。我最初会从第一
页
开始,因此在文件example_spider.py中定义start_urls = [1st page] 在从第一
页
获得更多信息后,我将确定下一
页
将被
抓取
,然后将相应地分配start_urls因此,我必须用对start_urls = [1st page, 2nd page, ..., Kth page]的更改覆盖上
面的
example_spider
浏览 1
提问于2012-01-10
得票数 12
回答已采纳
1
回答
python
抓取
规则在google结果中进行网络
抓取
、
、
、
、
我正在尝试让
scrapy
(1.0)遍历所有google结果,并且我可以毫不费力地
抓取
结果的第一
页
,但是我不能让
抓取
器遍历下
面的
页数(我认为这叫做遍历?)。我尝试
使用
“规则”:但我一直收到错误: NameError: name 'Rule' is
浏览 2
提问于2015-07-11
得票数 0
1
回答
带有刮刀的Web爬行器,
使用
木偶和刮除器
、
、
、
、
我必须
抓取
和刮相当多的网站,这些网站是由React / javascript / html技术组合而成的。这些网站在所有地方都有大约。10万至50万
页
。我计划
使用
Selenium和
Scrapy
来完成爬行和
抓取
。单是
Scrapy
就不能对页面进行
抓取
,
使用
Selenium来
抓取
常规的javascript/html是非常耗时的。我想知道是否有任何方法我的爬虫/刮刀可以理解反应页面与Javascript
浏览 3
提问于2019-12-04
得票数 0
回答已采纳
4
回答
在批处理文件中
使用
scrapy
crawl命令时继续批处理脚本命令
、
、
我
使用
scrapy
从网页
抓取
信息。我已经写了爬虫代码,它工作得很好。我还有一些其他的python代码文件来优化
抓取
的数据。总而言之,我有一个批处理文件,我首先在其中
使用
"
Scrapy
Crawl“命令,然后运行我的python文件来优化
抓取
的信息。问题是,批处理脚本在"
Scrapy
Crawl“命令的末尾停止,并且不会继续执行批处理文件中后
面的
行。我该
如何
解决这个问题?批处理文件的
内容</
浏览 1
提问于2013-05-09
得票数 1
回答已采纳
1
回答
如何
报废网站上的所有页面(第1
页
直到无穷大)
、
、
、
、
伙计们,我想从上
抓取
一切都好,我
抓取
它的成功from
scrapy
.loader import ItemLoader
浏览 1
提问于2016-07-25
得票数 0
回答已采纳
1
回答
使用
Scrapy
,我不能因为未知的原因
抓取
网站(可能是因为某种重定向)
、
我正在
使用
Scrapy
来
抓取
ntry.com它的主页的url是ntry.com/#/main.php,但出于一个我不知道的原因,我不能刮错一
页
。这是我的代码。import
scrapy
name = "ntry"start_urlsopen(filena
浏览 0
提问于2016-11-20
得票数 0
1
回答
关于XPath选择器的问题(用于
Scrapy
)
、
、
、
目的:从div类list_area daily_all中
抓取
文本数据。
使用
scrapy
shell,我首先“
抓取
”了我想要
抓取
数据的网站:https://comic.naver.com/webtoon/weekday.nhn
使用
'
scrapy
shell‘脚本:
scrapy
shell 'https://comic.naver.com/webtoon/w
浏览 18
提问于2019-06-10
得票数 2
2
回答
经过筛选的重复请求
、
我在和
scrapy
合作。我想遍历一个db表,获取每个
抓取
的起始
页
(random_form_page),然后为每个起始
页
生成一个请求。请注意,我正在
使用
api来获取初始请求的代理。我希望设置每个请求都有自己的代理,所以
使用
我拥有的回调模型: for x in xrange(8):
浏览 5
提问于2016-09-28
得票数 7
回答已采纳
2
回答
如何
在
Scrapy
Crawler中跟踪下一
页
以
抓取
内容
、
、
我能够从第一
页
抓取
所有的故事,我的问题是
如何
移动到下一
页
,继续
抓取
故事和名字,请检查下
面的
代码。# -*- coding: utf-8 -*-from cancerstories.items import CancerstoriesItem name =
scrapy
.Field() story =
scrapy
.Fi
浏览 2
提问于2016-02-10
得票数 2
回答已采纳
1
回答
如何
在python中
使用
selenium或
scrapy
点击“下一步”按钮
、
、
、
、
我正在尝试
使用
scrapy
从flipkart.com中
抓取
一些数据。除了翻到下一
页
,我什么都拿到了。首先,我尝试
使用
scrapy
,然后
使用
selenium。实际上,一个类有上一
页
和下一
页
的两个链接。
使用
scrapy
:我无法获取任何结果。我得到的是空白输出。
使用
selenium:每当我尝试点击下一
页
时,从第一
页
到第二
页
都可以正
浏览 45
提问于2021-02-10
得票数 1
1
回答
如何
从多个页面中
抓取
项目?
、
我正在尝试
抓取
#
页
的数据。我已经做了一个可以从一个页面
抓取
数据的
抓取
器。但它在刮掉第一
页
后突然完成了工作# -*- coding: utf-8 -*-import csvfrom
scrapy
.selector import Selector class Proddduc
浏览 11
提问于2019-11-07
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Scrapy 爬取分析酷安网 6000 款App
码以致用02-用Scrapy 爬虫抓取简单心理咨询师资料
6000 多款 App,看我如何搞定她们并将其洗白白
目前最快的Python爬虫速成法!两步即可学会
Java如何使用Apache POI只提取Word文档的第一页内容
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券