腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(2610)
视频
沙龙
1
回答
Scrapy
规则
:
排除
某些
带有
流程
链接
的
urls
、
、
我很高兴发现了
Scrapy
Crawl类及其Rule对象。然而,当我试图用process_links提取包含单词"login“
的
urls
时,它不起作用。我实现
的
解决方案来自这里:Example code for
Scrapy
process_links and process_request,但它并不
排除
我想要
的
页面 import
scrapy
from
scrapy
.linkextractors import LinkExt
浏览 11
提问于2019-06-26
得票数 0
回答已采纳
3
回答
Scrapy
找不到自定义函数
、
我已经实现了我自己
的
函数,用于
排除
包含
某些
单词
的
urls
。然而,当我在我
的
parse方法中调用它时,
Scrapy
告诉我该函数没有定义,尽管它已经定义了。我没有使用
规则
对象,因为我从api中获得了我想要抓取
的
Urls
。下面是我
的
设置: class IbmSpiderSpider(
scrapy
.Spider): ...url = result.get('url&
浏览 24
提问于2019-06-21
得票数 2
回答已采纳
1
回答
Scrapy
-
排除
不需要
的
URL(如评论)
、
、
我正在使用
Scrapy
抓取网站以获取所有页面,但我当前
的
代码
规则
仍然允许我获取不需要
的
URL,例如除了帖子
的
主URL之外
的
评论
链接
"“。我可以在
规则
中添加什么来
排除
这些不需要
的
项目?下面是我当前
的
代码:from
scrapy
.contrib.lin
浏览 2
提问于2013-05-27
得票数 3
1
回答
刮除包含特定文本
的
URL
、
我想要构建
的
Scrapy
程序有问题。代码如下。import
scrapy
from
scrapy
.linkextractors import LinkExtractor(CrawlSpider): item = [] start_
urls
浏览 1
提问于2022-02-22
得票数 2
回答已采纳
1
回答
在实际抓取数据之前,
scrapy
是否有可能导航
链接
?
、
我一直在学习一些粗糙
的
教程,我有一个问题(我对这个问题非常陌生,所以如果这是个愚蠢
的
问题,我很抱歉)。到目前为止,我所看到
的
大部分内容都涉及到:3)告诉刮刮者如何找到要刮
的
“下一页” 我想知道
的
是,当数据本身不在起始页面时,我是否能够使用
scrapy
刮取数据?例如,我有一个
链接
,去一个论坛。该论坛包含几个子论坛
的
链接
。每个子论坛都有几个线程
的</e
浏览 0
提问于2018-10-18
得票数 0
回答已采纳
1
回答
Scrapy
忽略allowed_domains?
、
、
Scrapy
忽略了我
的
爬虫
规则
,甚至遵循了不允许
的
域名。self.start_
urls
= [ 'http://www.domain.de' ]但在
某些
情况下,它工作得很好,并过滤不允许
的
域,请参阅日志:我使用sgmllink提取器来跟踪<e
浏览 1
提问于2014-12-27
得票数 3
2
回答
刮擦
规则
否认
我怎么能拒绝使用刮取
规则
来抓取网站
的
某些
部分。我希望
Scrapy
能够抓取mathcing www.example.com/help/nl/ en
的
链接
,拒绝所有匹配www.example.com/help/en/和www.example.com/网站
的
链接
class MySpider(CrawlSpider):
浏览 0
提问于2013-03-18
得票数 1
1
回答
如何使用CrawlSpider通过以下
链接
抓取整个网站?
我意识到使用
带有
LinkExtractor
规则
的
CrawlSpider只能解析
链接
的
页面,而不能解析起始页面本身。下面是一个简单
的
代码示例: from
scrapy
.crawler import CrawlerProcess r
浏览 16
提问于2019-06-17
得票数 0
2
回答
如何用
Scrapy
抓取整个网站?
、
、
我无法抓取整个网站,
Scrapy
只能在表面抓取,我想抓取更深
的
部分。我已经用谷歌搜索了5-6个小时,但没有任何帮助。我
的
代码如下:from
scrapy
.contrib.linkextractors.sgmlimport SgmlLinkExtractorfrom
scrapy</
浏览 0
提问于2013-03-19
得票数 11
2
回答
从给定
的
URL抓取数据并使用
scrapy
将其放入文件
、
、
我试图深入刮一个给定
的
网站,并从所有的网页上抓取文本。我是用刮伤来刮网站
的
item.json file coming empty# -*- coding: utf-8 -*-from
scrapy
.linkextractors import LinkExtractor from
scrapy
.spiders importStackCrawlerSpider(Cra
浏览 1
提问于2016-06-09
得票数 0
回答已采纳
1
回答
爬行蜘蛛
的
刮痕流
、
我很难弄清楚
Scrapy
是如何工作
的
(或者我需要如何处理它)。这个问题有点宽泛--更需要理解。def parse_start_url(self, response): 暂时避免
规则
的
繁杂。现在,
Scrapy
应该获取这6个
urls
并抓取它们,
浏览 0
提问于2015-06-30
得票数 2
回答已采纳
1
回答
scrapy
是如何使用
规则
的
?
、
、
我刚开始使用
Scrapy
,我想了解这些
规则
是如何在CrawlSpider中使用
的
。如果我有一个在亚利桑那州图森市
的
纸杯蛋糕列表
的
黄页中爬行
的
规则
,那么产生一个URL请求如何激活该
规则
--具体地说,它是如何激活restrict_xpath属性
的
? 谢谢。
浏览 1
提问于2014-08-17
得票数 23
回答已采纳
6
回答
Scrapy
start_
urls
、
教程中
的
(如下)包含两个start_
urls
。from
scrapy
.spider import Spider name = "dmoz" start_
urls
= [For more in
浏览 0
提问于2012-01-18
得票数 7
1
回答
抓取爬行器输出
、
、
我在
Scrapy
文档中
的
中有一个问题。它似乎爬得很好,但我很难将它输出到CSV文件(或任何真正
的
文件)。所以,我
的
问题是,我可以用这个:还是我必须创建一个import
scrapy
from
scrapy
.contrib.linkextractorsclass
浏览 4
提问于2014-10-23
得票数 0
回答已采纳
1
回答
对不需要
的
URL进行快速解析
、
我在和
Scrapy
刮apartments.com我得到了一些不想要
的
结果。具体地说,我从附近
的
城市和西班牙语版本
的
apartments.com获得了结果。在每个公寓列表
的
底部,都有一个“附近
的
公寓”功能,这可能是
Scrapy
在波士顿以外
的
地方获得搜索结果
的
原因。我试图用我
的
拒绝
规则
阻止/es/ listings,但它似乎不起作用。import
scrapy
fr
浏览 0
提问于2021-03-08
得票数 1
2
回答
如何抓取一个网站只给定域网址与
scrapy
、
、
、
我正在尝试使用
scrapy
抓取一个网站,但网站没有网站地图或页面索引。如何使用
scrapy
抓取网站
的
所有页面? 我只需要下载网站
的
所有页面,而不提取任何项目。我只需要在蜘蛛
规则
中设置关注所有
链接
吗?但我不知道
scrapy
是否会以这种方式避免复制
urls
。
浏览 0
提问于2013-01-06
得票数 5
回答已采纳
1
回答
Scrapy
Crawler多个域在检索源页面后没有错误地完成
、
尝试让
Scrapy
抓取多个域。我让它工作了很短时间,但有些东西改变了,我不知道是什么。我
的
理解是,
带有
规则
的
"CrawlSpider“应该遵循任何允许
的
链接
,直到深度设置或域名耗尽。import
scrapy
from
scrapy
.linkextractors import LinkExtractorBbcSpide
浏览 29
提问于2018-06-03
得票数 1
回答已采纳
2
回答
拒绝
某些
URL
、
我目前正在为我
的
大学机构知识库项目使用
Scrapy
,在那里我需要获得每个大学
的
外部
链接
。有没有办法拒绝
某些
URL,比如'google.com‘和'twitter.com’。下面是我目前所拥有的。import
scrapy
name = 'utm' start_
urls
= ['http:/
浏览 21
提问于2019-03-11
得票数 2
回答已采纳
1
回答
使用
Scrapy
跟踪
链接
的
更简单方法
我在一只刮破
的
蜘蛛中有以下代码: name = "contact" start_
urls
= [ ] BASE_URL = "http:/
浏览 1
提问于2016-08-18
得票数 0
回答已采纳
1
回答
Scrapy
-未调用Parse_item
、
我有两个主要问题from
scrapy
.spider import BaseSpiderfrom <
浏览 0
提问于2012-07-09
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
爬虫CrawlSpider原理
使用 Python 和 Scrapy 半小时爬了10 个在线商店的网页
Scrapy框架的使用之Scrapy通用爬虫
Spider源码解析-Scrapy框架实战
爬虫之scrapy框架
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券