腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如何
通过
更改
"
def
start_requests
(
self
)“
中
的
一部分
url
在
Scrapy
中
运行
几次
爬虫
、
、
当我检查Castbox网站
的
JSON
URL
时,我发现每次
通过
向下滚动页面重新加载时,只有
一部分
URL
会发生变化。这部分被称为“跳过”,它在0到200之间变化,你会在
URL
中看到它。因此,我想,如果我可以编写一个"
def
start_requests
(
self
)“,其中
的
”跳过“部分可以从0
更改
为200,我就可以得到我想要
的
东西。这样
的
功能是否可能每次都
浏览 183
提问于2020-11-12
得票数 1
回答已采纳
1
回答
Scrapy
spider
在
队列
中
监听要抓取
的
种子urls?
、
让
Scrapy
爬虫
在
SQS队列(或其他队列)上监听新
的
种子
URL
爬行
的
方法是什么?
在
文档
中
找不到任何示例,所以我想这里可能有人知道。 提前谢谢。编辑: 这可能是
start_requests
的
正确位置吗?class MySpider(
scrapy
.Spider): allowed_domains = ['exam
浏览 16
提问于2019-01-15
得票数 0
回答已采纳
1
回答
抓取让一只蜘蛛使用另一种蜘蛛所建
的
属性。
、
、
、
我意识到我可以
在
一个蜘蛛
中
完成所有这些,但是这个蜘蛛已经非常大了(对于25+不同
的
域来说是一个通用
的
蜘蛛),并且希望尽可能地将它分开。目前,我正在创建这个主蜘蛛
的
实例,如下所示: process = CrawlerProcess(get_project_settings()) process.crawl(MasterSpider, s
浏览 3
提问于2017-08-02
得票数 2
1
回答
scrapy
未处理
的
异常
、
、
我
在
linux上使用
的
是
scrapy
0.16.2版本。我在
运行
:我得到了这个错误,它阻止了
scrapy
(挂起并且不会自动完成,只有^C停止它,
url
) source =
self
浏览 2
提问于2012-11-20
得票数 2
回答已采纳
4
回答
在
多个网站上使用一个
Scrapy
爬虫
、
、
我需要创建一个用户可配置
的
网络蜘蛛/
爬虫
,我正在考虑使用
Scrapy
。但是,我不能硬编码域和允许
的
URL
regex:es --这将在GUI
中
配置。
如何
(尽可能简单地)使用
Scrapy
创建一个爬行器或一组爬行器,其中域和允许
的
URL
regex:es是动态可配置
的
?例如,我将配置写到一个文件
中
,然后爬行器以某种方式读取它。
浏览 2
提问于2010-03-07
得票数 12
回答已采纳
1
回答
scrapy
.Request没有
通过
、
scrapy
.Request
中
的
第一个
def
start_requests
通过
并正确执行,但没有像这里所示
的
在
def
parse_navpage
中
执行一个。= ['zoopla.co.uk'] # Read source from file navpa
浏览 4
提问于2022-09-10
得票数 1
3
回答
如何
发送
在
Scrapy
中
启用
的
JavaScript和Cookie?
、
、
、
我正在刮一个网站使用
Scrapy
,这需要烹饪和java-script才能启用。我不认为我必须实际处理javascript。我所要做
的
就是假装javascript已经启用。这是我尝试过
的
: 1)
通过
以下设置启用CookieCOOKIES_DEBUG = TrueDOWNLOADER_MIDDLEWARES= { '
scrapy
.contrib.downloadermiddleware.us
浏览 0
提问于2013-05-06
得票数 9
1
回答
如何
在解析过程
中
更改
抓取闭包项计数
、
是否有可能在蜘蛛
运行
时
更改
CLOSESPIDER_ITEMCOUNT?100,} urls = ['https://google.com', 'https://amazon.com']for
url
in urls: yield
scrapy
.Request(
url
, ca
浏览 15
提问于2022-02-04
得票数 0
回答已采纳
1
回答
如何
在不使用"meta“
的
情况下在
Scrapy
Parse方法之间同步数据?
、
、
、
我想使用一些其他
的
方法,而不是使用meta,因为meta目前
在
我
的
爬虫
中用来处理302响应。当我在这个字典
中
添加额外
的
项目时,为了同步数据,302响应被忽略
def
start_requests
(
self
):
self
.rowExt= row yield
scrapy
.Requ
浏览 15
提问于2020-09-12
得票数 1
回答已采纳
2
回答
CrawlerRunner不使用钩针抓取页面
、
、
、
我正在尝试使用CrawlerRunner()从脚本启动一个剪贴画,以便在AWS Lambda
中
启动。 name = "quotes" urls = [ yield
sc
浏览 0
提问于2019-01-29
得票数 0
2
回答
Scrapy
和Splash不会爬行
、
、
、
我做了一个
爬虫
,splash工作正常(我
在
我
的
浏览器
中
测试了它),
scrapy
虽然不能抓取和提取项目。我
的
实际代码是:import
scrapy
from
scrapy
.http.headers import Headers start_urls = ( 'http:/
浏览 1
提问于2016-01-29
得票数 0
1
回答
如何
让抓取蜘蛛从起始网址下载图片?
、
、
start_urls = ['https://image.jpg'] for
url
in
self
.start_urls:request =
scrapy
.Request(
url
,callback=
self
.parse)
def
parse(
self
, response
浏览 22
提问于2020-04-26
得票数 0
2
回答
使用
scrapy
抓取网站时“NoneType”对象不可迭代
的
错误响应
、
、
我是新
的
网络刮刮使用刮痕。我正在尝试刮一个网站(请参考代码
中
的
urls )。从该网站,我试图废除‘%年“表下
的
信息,并将数据传输到json文件。
在
执行命令时,当"'NoneType‘对象不可迭代“时,我收到了一个错误: import
scrapy
name = "quotes"
def
浏览 0
提问于2018-06-19
得票数 0
回答已采纳
2
回答
抓取Python -
如何
传递
URL
并检索用于抓取
的
URL
、
我很少有使用python
的
编程经验,更多
的
是使用Java。我很难理解
如何
将脚本
中
的
URL
执行传递给我找到
的
一个刮伤示例。: class UrlScrappyRunner(
scrapy
.Spider
浏览 5
提问于2016-11-28
得票数 1
回答已采纳
3
回答
与
Scrapy
一起使用时Selenium web驱动程序实例过多
、
、
、
、
我正在创建一个使用
Scrapy
和Selenium
的
网络
爬虫
。代码如下所示: urls = [/* a very long list of
url
*/] for
url
in urls: yield
scrapy
.Request(
url
浏览 0
提问于2018-03-10
得票数 0
1
回答
用代理爬行
、
、
我编写了一个
Scrapy
中间件,它必须
通过
scrapy
.Request(
url
).对每个请求使用代理。_ proxy ',None) @classmethod
def
from_crawler(cls,
爬虫
):返回cls(crawler.settings)
def
process_request(
self
s>’%
self
.chosen_proxy)
在
我
的
settings.py里
浏览 2
提问于2020-12-16
得票数 1
1
回答
刮痕爬行不爬行任何网址
、
这是我
的
第一个蜘蛛密码。当我
在
cmd
中
执行这段代码时。日志显示urls甚至没有被爬行,并且其中没有调试消息。在任何地方都找不到解决这个问题
的
办法。我不明白是怎么回事。有人能帮我做这个吗。我
的
代码: name = "quotes_spider"
def
start_request/page/2
浏览 1
提问于2021-06-19
得票数 1
回答已采纳
3
回答
将抓取
的
URL
从一个
爬虫
传递到另一个
爬虫
、
、
、
如何
将抓取
的
网址从一个爬行器发送到另一个爬行器
的
start_urls? name = 'daily' sitemap_urls= ['http
浏览 30
提问于2017-02-23
得票数 2
2
回答
Scrapy
:
如何
与爬行数据一起存储
url
_id
、
、
、
') print("spiderclosed") start_urls = []yield Request(
url
=
浏览 0
提问于2019-03-27
得票数 1
回答已采纳
1
回答
爬虫
获取有关页面的信息(
Scrapy
)
、
如何
实现获取页面所有信息
的
爬虫
(使用
SCRAPY
)。例如,图像大小、CSS文件大小和保存在.txt文件
中
(page1.txt,page2.txt)class TestSpider(
scrapy
.Spider): start_urls = ["http://www.example.com/page1.html", "http://w
浏览 3
提问于2017-07-01
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python爬虫学习初窥Scrapy
Scrapy框架新手入门教程
scrapy爬取漫画
爬虫入门基础探索Scrapy框架之Selenium反爬
Python爬虫:使用scrapy框架抓取360超清壁纸
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券