腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Scrapy
提前完成
,
没有
得到
所有
链接
、
、
、
我正在尝试运行一个网络蜘蛛,以获得特定网址的
所有
网址。现在它返回了大约64个urls,而我知道还有几十万个。有人知道为什么它提前结束了吗?callback=self.parse_item) 这是结果,我注意到的是request_depth_max:1,但我在设置中有我的DEPTH_LIMIT=0 2019-02-19 23:31:03 [
scrapy
.statscollectors] INFO: Dumping
Scrapy
stats:
浏览 58
提问于2019-02-20
得票数 0
2
回答
Scrapy
没有
抓取
所有
链接
、
、
我正在使用
Scrapy
抓取和报废一个固定域名的网站。我想爬行到与固定正则表达式匹配的站点,并忽略其余的。代码运行得很好,但只返回至少1000页中的10-15页。
浏览 6
提问于2014-04-04
得票数 0
1
回答
使用
scrapy
抓取网站中的
所有
urls,而不是撤回与该域关联的完整urls。
、
、
我试图刮
所有
的网址,如,,等网站,举几个例子。我
得到
了很多的urls刮,但
没有
得到
完整的urls相关的领域。我不知道为什么不刮掉
所有
的urls。码import
scrapy
# The source URL url_from =
scrapy
.Fieldcrawl symphony --logfile laph.log -o laph.jl -t js
浏览 5
提问于2022-01-15
得票数 1
回答已采纳
2
回答
如何使用LinkExtractor获取网站中的
所有
urls?
、
我想知道是否有一种方法可以
得到
所有
的网址在整个网站。使用CrawSpider和LinkExtractor的
Scrapy
似乎是一个不错的选择。考虑一下这个例子:from
scrapy
.contrib.spiders import CrawlSpider, Rule class SampleItem(Ite
浏览 13
提问于2015-10-28
得票数 2
回答已采纳
1
回答
处理NotSupported异常
、
我正在使用
Scrapy
Spider从网站上抓取一些数据,但并不是
所有
的
链接
都很好。我
得到
了其中的一些NotSupported错误,我想把这些网址存储在一个文件或定义一些其他行为。有
没有
办法捕获
scrapy
.exceptions.NotSupported并定义自定义行为?我天真地尝试了以下代码,但它不起作用。try:except
scrapy
.exc
浏览 20
提问于2019-01-04
得票数 0
2
回答
刮除:不要在其他域页面上爬行
链接
。
、
、
、
下面是我创建的蜘蛛,用于获取NecToday.com上的
所有
链接
。import socketfrom
scrapy
.contrib.linkextractors.sgmlimport SgmlLinkExtractor class PropertiesItem
浏览 0
提问于2016-06-16
得票数 2
回答已采纳
1
回答
如何使用
Scrapy
递归地从站点中抓取每个
链接
?
、
、
我试图从一个使用
Scrapy
的网站上获取每一个
链接
(
没有
其他数据)。我想这样做,从主页开始,从那里抓取
所有
的
链接
,然后为每个找到的
链接
,跟随
链接
和刮刮
所有
(唯一的)
链接
从该网页,并为
所有
找到的
链接
,直到
没有
更多的跟随。到目前为止,我有一只蜘蛛,它只给我在主页上的
链接
,但我似乎不明白为什么它不跟随
链接
和刮其他网页。这是我的蜘蛛 from e
浏览 0
提问于2018-09-10
得票数 2
1
回答
Scrapy
忽略url,因为它太长(超过2083个字符)
、
我正在使用
scrapy
,但是我
得到
了一些url的以下错误当我在浏览器中复制并粘贴这个长的url时,我
得到
了这个页面,
没有
问题。有
没有
办法让
scrapy
不忽略那些长url 非常感谢
浏览 0
提问于2021-12-02
得票数 0
9
回答
安装了
Scrapy
,但不会从命令行运行
、
我正试图在一台ubuntu机器上使用
scrapy
运行我在python中编写的刮取程序。刮伤装置已经安装。我可以导入,直到python
没有
问题,当尝试pip install
scrapy
时,我
得到
当我尝试从命令中运行
scrapy
(例如使用
scrapy
crawl ... )时,我<em
浏览 8
提问于2016-06-10
得票数 6
4
回答
如何从一个网站中提取
所有
的url?
、
我正在编写一个程序在Python中提取
所有
的网址从一个给定的网站。
所有
的网址都来自一个网站,而不是一个页面。
浏览 1
提问于2012-03-02
得票数 1
2
回答
如何抓取一个网站只给定域网址与
scrapy
、
、
、
我正在尝试使用
scrapy
抓取一个网站,但网站
没有
网站地图或页面索引。如何使用
scrapy
抓取网站的
所有
页面? 我只需要下载网站的
所有
页面,而不提取任何项目。我只需要在蜘蛛规则中设置关注
所有
链接
吗?但我不知道
scrapy
是否会以这种方式避免复制urls。
浏览 0
提问于2013-01-06
得票数 5
回答已采纳
1
回答
将url
链接
解析为列表
、
我已经使用
scrapy
创建了一个爬行器,我正在尝试将下载
链接
保存到一个(python)列表中,所以我以后可以使用downloadlist[1]调用一个列表条目。但是
scrapy
将urls保存为项而不是列表。是否有方法将每个url附加到列表中?from
scrapy
.selector import HtmlXPathSelectorfrom
scrapy
.http importRequest import
浏览 0
提问于2017-04-03
得票数 1
回答已采纳
1
回答
我正在尝试使用
Scrapy
抓取数据
、
、
、
我正在尝试从pewdiepie频道获取
所有
的视频
链接
。我写了以下代码,它
没有
显示任何错误,但它
没有
抓取
链接
。代码如下: import
scrapy
nameurls = ['https://www.youtube.com/user/PewDiePie
浏览 9
提问于2021-06-30
得票数 0
1
回答
抓取下载文件错误
、
、
、
我正在使用
Scrapy
中的文件管道从下载字幕文件。它可以开始工作,我可以下载第一个~100个文件,
没有
任何问题。但是,在此前后,
链接
似乎会创建错误: ITEM_PIPELINES = {'
scrapy
.pipelines.files.FilesPi
浏览 2
提问于2016-06-09
得票数 0
3
回答
从刮伤请求打印“响应”
、
、
建议会很好response = Response(url=url) print
浏览 6
提问于2017-02-15
得票数 8
1
回答
为什么xpath的extract()返回锚元素的href属性的空列表?
、
、
为什么我在尝试使用
scrapy
提取位于以下url:https://www.udemy.com/courses/search/?src=ukw&q=accounting上的锚标签的href属性时
得到
一个空列表?
浏览 10
提问于2019-06-25
得票数 0
1
回答
当
scrapy
在conda虚拟环境中时,如何在pycharm中调试
scrapy
、
、
当从conda虚拟环境运行时,我正在尝试用py魅力调试
scrapy
。我遵循这个
链接
,它通常是工作的,但是如果我使用conda虚拟环境中的
scrapy
,就会
得到
更新:我添加了有关如何重现此错误的步骤: 安装
scrapy
并创建一个项目和蜘蛛pip安装
scrapy</em
浏览 0
提问于2019-04-08
得票数 1
1
回答
Scrapy
-如何在
链接
标记内指定href以获取
所有
页面和论文
、
我想要获取包含这些问题的
所有
页面,以及该科学期刊()的
所有
论文。<link rel="next" href="https://www.sciencedirect.com/journal/phytochemistry(
scra
浏览 2
提问于2020-03-02
得票数 0
1
回答
Scrapy
遍历
所有
链接
、
我正在使用
scrapy
抓取我的整个页面。不知何故,正则表达式是错误的。= titles.xpath("a/@href").extract() return(items) 我想解析<li>中的
所有
链接
浏览 0
提问于2016-04-18
得票数 0
1
回答
Xpath不从
Scrapy
Shell中的<p>标记返回文本
、
、
、
链接
: 我正在尝试从上面的
链接
中抓取描述。XPath看起来是正确的,但它
没有
返回
scrapy
shell中的值。(请看下面的截图)。我尝试了
所有
的方法,比如get(),getall(),extract(),extract_first(),extractall(),但是我
得到
了一个空列表。请帮我找出错误。谢谢..。
浏览 17
提问于2020-05-09
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
一篇搞定所有的python异常,没有十年的功底做得到?
Scrapy向导
Scrapy之10行代码爬下电影天堂全站
python爬虫实例——用scarpy框架爬取全部新浪新闻
Py无处不在,你真的感受到了?
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券