Scrapy提前完成，没有得到所有链接

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

1回答

、、、

我正在尝试运行一个网络蜘蛛，以获得特定网址的所有网址。现在它返回了大约64个urls，而我知道还有几十万个。有人知道为什么它提前结束了吗？callback=self.parse_item) 这是结果，我注意到的是request_depth_max:1，但我在设置中有我的DEPTH_LIMIT=0 2019-02-19 23:31:03 [scrapy.statscollectors] INFO: Dumping Scrapy stats:

浏览 58提问于2019-02-20得票数 0

2回答

Scrapy没有抓取所有链接

、、

我正在使用Scrapy抓取和报废一个固定域名的网站。我想爬行到与固定正则表达式匹配的站点，并忽略其余的。代码运行得很好，但只返回至少1000页中的10-15页。

浏览 6提问于2014-04-04得票数 0

1回答

使用scrapy抓取网站中的所有urls，而不是撤回与该域关联的完整urls。

、、

我试图刮所有的网址，如，，等网站，举几个例子。我得到了很多的urls刮，但没有得到完整的urls相关的领域。我不知道为什么不刮掉所有的urls。码import scrapy # The source URL url_from = scrapy.Fieldcrawl symphony --logfile laph.log -o laph.jl -t js

浏览 5提问于2022-01-15得票数 1

回答已采纳

2回答

如何使用LinkExtractor获取网站中的所有urls？

、

我想知道是否有一种方法可以得到所有的网址在整个网站。使用CrawSpider和LinkExtractor的Scrapy似乎是一个不错的选择。考虑一下这个例子：from scrapy.contrib.spiders import CrawlSpider, Rule class SampleItem(Ite

浏览 13提问于2015-10-28得票数 2

回答已采纳

1回答

处理NotSupported异常

、

我正在使用Scrapy Spider从网站上抓取一些数据，但并不是所有的链接都很好。我得到了其中的一些NotSupported错误，我想把这些网址存储在一个文件或定义一些其他行为。有没有办法捕获scrapy.exceptions.NotSupported并定义自定义行为？我天真地尝试了以下代码，但它不起作用。try:except scrapy.exc

浏览 20提问于2019-01-04得票数 0

2回答

刮除:不要在其他域页面上爬行链接。

、、、

下面是我创建的蜘蛛，用于获取NecToday.com上的所有链接。import socketfrom scrapy.contrib.linkextractors.sgmlimport SgmlLinkExtractor class PropertiesItem

浏览 0提问于2016-06-16得票数 2

回答已采纳

1回答

如何使用Scrapy递归地从站点中抓取每个链接？

、、

我试图从一个使用Scrapy的网站上获取每一个链接(没有其他数据)。我想这样做，从主页开始，从那里抓取所有的链接，然后为每个找到的链接，跟随链接和刮刮所有(唯一的)链接从该网页，并为所有找到的链接，直到没有更多的跟随。到目前为止，我有一只蜘蛛，它只给我在主页上的链接，但我似乎不明白为什么它不跟随链接和刮其他网页。这是我的蜘蛛 from e

浏览 0提问于2018-09-10得票数 2

1回答

Scrapy忽略url，因为它太长(超过2083个字符)

、

我正在使用scrapy，但是我得到了一些url的以下错误当我在浏览器中复制并粘贴这个长的url时，我得到了这个页面，没有问题。有没有办法让scrapy不忽略那些长url 非常感谢

浏览 0提问于2021-12-02得票数 0

9回答

安装了Scrapy，但不会从命令行运行

、

我正试图在一台ubuntu机器上使用scrapy运行我在python中编写的刮取程序。刮伤装置已经安装。我可以导入，直到python没有问题，当尝试pip install scrapy时，我得到当我尝试从命令中运行scrapy (例如使用scrapy crawl ... )时，我<em

浏览 8提问于2016-06-10得票数 6

4回答

如何从一个网站中提取所有的url？

、

我正在编写一个程序在Python中提取所有的网址从一个给定的网站。所有的网址都来自一个网站，而不是一个页面。

浏览 1提问于2012-03-02得票数 1

2回答

如何抓取一个网站只给定域网址与scrapy

、、、

我正在尝试使用scrapy抓取一个网站，但网站没有网站地图或页面索引。如何使用scrapy抓取网站的所有页面？我只需要下载网站的所有页面，而不提取任何项目。我只需要在蜘蛛规则中设置关注所有链接吗？但我不知道scrapy是否会以这种方式避免复制urls。

浏览 0提问于2013-01-06得票数 5

回答已采纳

1回答

将url链接解析为列表

、

我已经使用scrapy创建了一个爬行器，我正在尝试将下载链接保存到一个(python)列表中，所以我以后可以使用downloadlist[1]调用一个列表条目。但是scrapy将urls保存为项而不是列表。是否有方法将每个url附加到列表中？from scrapy.selector import HtmlXPathSelectorfrom scrapy.http importRequest import

浏览 0提问于2017-04-03得票数 1

回答已采纳

1回答

我正在尝试使用Scrapy抓取数据

、、、

我正在尝试从pewdiepie频道获取所有的视频链接。我写了以下代码，它没有显示任何错误，但它没有抓取链接。代码如下： import scrapy nameurls = ['https://www.youtube.com/user/PewDiePie

浏览 9提问于2021-06-30得票数 0

1回答

抓取下载文件错误

、、、

我正在使用Scrapy中的文件管道从下载字幕文件。它可以开始工作，我可以下载第一个~100个文件，没有任何问题。但是，在此前后，链接似乎会创建错误： ITEM_PIPELINES = {'scrapy.pipelines.files.FilesPi

浏览 2提问于2016-06-09得票数 0

3回答

从刮伤请求打印“响应”

、、

建议会很好response = Response(url=url) print

浏览 6提问于2017-02-15得票数 8

1回答

为什么xpath的extract()返回锚元素的href属性的空列表？

、、

为什么我在尝试使用scrapy提取位于以下url：https://www.udemy.com/courses/search/?src=ukw&q=accounting上的锚标签的href属性时得到一个空列表？

浏览 10提问于2019-06-25得票数 0

1回答

当scrapy在conda虚拟环境中时，如何在pycharm中调试scrapy

、、

当从conda虚拟环境运行时，我正在尝试用py魅力调试scrapy。我遵循这个链接，它通常是工作的，但是如果我使用conda虚拟环境中的scrapy，就会得到更新:我添加了有关如何重现此错误的步骤：安装scrapy并创建一个项目和蜘蛛pip安装scrapy</em

浏览 0提问于2019-04-08得票数 1

1回答

Scrapy -如何在链接标记内指定href以获取所有页面和论文

、

我想要获取包含这些问题的所有页面，以及该科学期刊()的所有论文。<link rel="next" href="https://www.sciencedirect.com/journal/phytochemistry(scra

浏览 2提问于2020-03-02得票数 0

1回答

Scrapy遍历所有链接

、

我正在使用scrapy抓取我的整个页面。不知何故，正则表达式是错误的。= titles.xpath("a/@href").extract() return(items) 我想解析<li>中的所有链接

浏览 0提问于2016-04-18得票数 0

1回答

Xpath不从Scrapy* Shell中的<p>标记返回文本*

、、、

链接：我正在尝试从上面的链接中抓取描述。XPath看起来是正确的，但它没有返回scrapy shell中的值。(请看下面的截图)。我尝试了所有的方法，比如get()，getall()，extract()，extract_first()，extractall()，但是我得到了一个空列表。请帮我找出错误。谢谢..。

浏览 17提问于2020-05-09得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云