Scrapy规则:排除某些带有流程链接的urls

、、

我很高兴发现了Scrapy Crawl类及其Rule对象。然而，当我试图用process_links提取包含单词"login“的urls时，它不起作用。我实现的解决方案来自这里：Example code for Scrapy process_links and process_request，但它并不排除我想要的页面 import scrapy fromscrapy.linkextractors import LinkExt

浏览 11提问于2019-06-26得票数 0

回答已采纳

3回答

Scrapy找不到自定义函数

、

我已经实现了我自己的函数，用于排除包含某些单词的urls。然而，当我在我的parse方法中调用它时，Scrapy告诉我该函数没有定义，尽管它已经定义了。我没有使用规则对象，因为我从api中获得了我想要抓取的Urls。下面是我的设置： class IbmSpiderSpider(scrapy.Spider): ...url = result.get('url&

浏览 24提问于2019-06-21得票数 2

回答已采纳

1回答

Scrapy -排除不需要的URL(如评论)

、、

我正在使用Scrapy抓取网站以获取所有页面，但我当前的代码规则仍然允许我获取不需要的URL，例如除了帖子的主URL之外的评论链接"“。我可以在规则中添加什么来排除这些不需要的项目？下面是我当前的代码：from scrapy.contrib.lin

浏览 2提问于2013-05-27得票数 3

1回答

刮除包含特定文本的URL

、

我想要构建的Scrapy程序有问题。代码如下。import scrapyfrom scrapy.linkextractors import LinkExtractor(CrawlSpider): item = [] start_urls

浏览 1提问于2022-02-22得票数 2

回答已采纳

1回答

在实际抓取数据之前，scrapy是否有可能导航链接？

、

我一直在学习一些粗糙的教程，我有一个问题(我对这个问题非常陌生，所以如果这是个愚蠢的问题，我很抱歉)。到目前为止，我所看到的大部分内容都涉及到：3)告诉刮刮者如何找到要刮的“下一页” 我想知道的是，当数据本身不在起始页面时，我是否能够使用scrapy刮取数据？例如，我有一个链接，去一个论坛。该论坛包含几个子论坛的链接。每个子论坛都有几个线程的</e

浏览 0提问于2018-10-18得票数 0

回答已采纳

1回答

Scrapy忽略allowed_domains？

、、

Scrapy忽略了我的爬虫规则，甚至遵循了不允许的域名。self.start_urls = [ 'http://www.domain.de' ]但在某些情况下，它工作得很好，并过滤不允许的域，请参阅日志：我使用sgmllink提取器来跟踪<e

浏览 1提问于2014-12-27得票数 3

2回答

刮擦规则否认

我怎么能拒绝使用刮取规则来抓取网站的某些部分。我希望Scrapy能够抓取mathcing www.example.com/help/nl/ en的链接，拒绝所有匹配www.example.com/help/en/和www.example.com/网站的链接class MySpider(CrawlSpider):

浏览 0提问于2013-03-18得票数 1

1回答

如何使用CrawlSpider通过以下链接抓取整个网站？

我意识到使用带有LinkExtractor规则的CrawlSpider只能解析链接的页面，而不能解析起始页面本身。下面是一个简单的代码示例： from scrapy.crawler import CrawlerProcess r

浏览 16提问于2019-06-17得票数 0

2回答

如何用Scrapy抓取整个网站？

、、

我无法抓取整个网站，Scrapy只能在表面抓取，我想抓取更深的部分。我已经用谷歌搜索了5-6个小时，但没有任何帮助。我的代码如下：from scrapy.contrib.linkextractors.sgmlimport SgmlLinkExtractorfrom scrapy</

浏览 0提问于2013-03-19得票数 11

2回答

从给定的URL抓取数据并使用scrapy将其放入文件

、、

我试图深入刮一个给定的网站，并从所有的网页上抓取文本。我是用刮伤来刮网站的item.json file coming empty# -*- coding: utf-8 -*-from scrapy.linkextractors import LinkExtractor from scrapy.spiders importStackCrawlerSpider(Cra

浏览 1提问于2016-06-09得票数 0

回答已采纳

1回答

爬行蜘蛛的刮痕流

、

我很难弄清楚Scrapy是如何工作的(或者我需要如何处理它)。这个问题有点宽泛--更需要理解。def parse_start_url(self, response): 暂时避免规则的繁杂。现在，Scrapy应该获取这6个urls并抓取它们，

浏览 0提问于2015-06-30得票数 2

回答已采纳

1回答

scrapy是如何使用规则的？

、、

我刚开始使用Scrapy，我想了解这些规则是如何在CrawlSpider中使用的。如果我有一个在亚利桑那州图森市的纸杯蛋糕列表的黄页中爬行的规则，那么产生一个URL请求如何激活该规则--具体地说，它是如何激活restrict_xpath属性的？谢谢。

浏览 1提问于2014-08-17得票数 23

回答已采纳

6回答

Scrapy start_urls

、

教程中的 (如下)包含两个start_urls。from scrapy.spider import Spider name = "dmoz" start_urls = [For more in

浏览 0提问于2012-01-18得票数 7

1回答

抓取爬行器输出

、、

我在Scrapy文档中的中有一个问题。它似乎爬得很好，但我很难将它输出到CSV文件(或任何真正的文件)。所以，我的问题是，我可以用这个：还是我必须创建一个import scrapyfrom scrapy.contrib.linkextractorsclass

浏览 4提问于2014-10-23得票数 0

回答已采纳

1回答

对不需要的URL进行快速解析

、

我在和Scrapy刮apartments.com我得到了一些不想要的结果。具体地说，我从附近的城市和西班牙语版本的apartments.com获得了结果。在每个公寓列表的底部，都有一个“附近的公寓”功能，这可能是Scrapy在波士顿以外的地方获得搜索结果的原因。我试图用我的拒绝规则阻止/es/ listings，但它似乎不起作用。import scrapy fr

浏览 0提问于2021-03-08得票数 1

2回答

如何抓取一个网站只给定域网址与scrapy

、、、

我正在尝试使用scrapy抓取一个网站，但网站没有网站地图或页面索引。如何使用scrapy抓取网站的所有页面？我只需要下载网站的所有页面，而不提取任何项目。我只需要在蜘蛛规则中设置关注所有链接吗？但我不知道scrapy是否会以这种方式避免复制urls。

浏览 0提问于2013-01-06得票数 5

回答已采纳

1回答

Scrapy Crawler多个域在检索源页面后没有错误地完成

、

尝试让Scrapy抓取多个域。我让它工作了很短时间，但有些东西改变了，我不知道是什么。我的理解是，带有规则的"CrawlSpider“应该遵循任何允许的链接，直到深度设置或域名耗尽。import scrapyfrom scrapy.linkextractors import LinkExtractorBbcSpide

浏览 29提问于2018-06-03得票数 1

回答已采纳

2回答

拒绝某些URL

、

我目前正在为我的大学机构知识库项目使用Scrapy，在那里我需要获得每个大学的外部链接。有没有办法拒绝某些URL，比如'google.com‘和'twitter.com’。下面是我目前所拥有的。import scrapy name = 'utm' start_urls = ['http:/

浏览 21提问于2019-03-11得票数 2

回答已采纳

1回答

使用Scrapy跟踪链接的更简单方法

我在一只刮破的蜘蛛中有以下代码： name = "contact" start_urls = [ ] BASE_URL = "http:/&#x

浏览 1提问于2016-08-18得票数 0

回答已采纳

1回答

Scrapy -未调用Parse_item

、

我有两个主要问题from scrapy.spider import BaseSpiderfrom <

浏览 0提问于2012-07-09得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Scrapy找不到自定义函数

Scrapy -排除不需要的URL(如评论)

刮除包含特定文本的URL

在实际抓取数据之前，scrapy是否有可能导航链接？

Scrapy忽略allowed_domains？

刮擦规则否认

如何使用CrawlSpider通过以下链接抓取整个网站？

如何用Scrapy抓取整个网站？

从给定的URL抓取数据并使用scrapy将其放入文件

爬行蜘蛛的刮痕流

scrapy是如何使用规则的？

Scrapy start_urls

抓取爬行器输出

对不需要的URL进行快速解析

如何抓取一个网站只给定域网址与scrapy

Scrapy Crawler多个域在检索源页面后没有错误地完成

拒绝某些URL

使用Scrapy跟踪链接的更简单方法

Scrapy -未调用Parse_item

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐