Scrapy日志显示页面已爬行，但未找到任何对象。当使用scrapy shell时，它可以工作，但当我导出结果时，就会发生这种情况。

文章/答案/技术大牛

发布

1回答

python、scrapy

我正在抓取this，我已经抓取了不同领域的这个链接，但一旦我在一个抓取项目中这样做，什么都不起作用。这是我的爬虫文件代码： import scrapyfrom scrapy.loader import ItemLoader name="pubgspider&q

浏览 9提问于2019-01-09得票数 0

2回答

Scrapy - Xpath可以在shell中运行，但不能在代码中运行

python、xpath、web-scraping、web-crawler、scrapy-spider

我正在尝试抓取一个网站(我得到了他们的授权)，我的代码在scrapy shell中返回了我想要的东西，但我的爬行器什么也得不到。我想要理解为什么xpath选择器与scrapy shell一起工作(我得到的正是我需要的链接)，但是当我在我的爬行器中运行它时，我总是得到一个null列表。如果它能提供帮助，当我在爬行器中使用CSS选择器时，它可

浏览 36提问于2018-04-25得票数 1

回答已采纳

8回答

禁止在管道后打印日志中的Scrapy项目

python、scrapy

在我的爬行器和管道中，一切都工作正常。然而，日志在它离开管道时打印出整个scrapy项(我相信)：2013-01-17 18:42:18-0600 [tutorial] INFO: Closing spider (finished) 如果可以避免的话，

浏览 0提问于2013-01-18得票数 28

回答已采纳

2回答

刮擦的CrawlSpider什么都不爬行

python、scrapy、scrapy-spider

蜘蛛不需要打开和爬行url.Output 1：，我对python和Scrapy就不熟悉了。这是我到目前为止编写的代码。请指出我做错了什么。import scrapyfrom scrapy.contrib.spiders import CrawlSpider, Rulefrom scrapy.item import Item from scrapy.loader imp

浏览 4提问于2017-06-19得票数 2

回答已采纳

2回答

理解粗糙的框架体系结构

python、scrapy、scrapy-spider、scrapy-pipeline

但是，虽然callback参数指向作为项生成器的函数，但process_links参数的工作方式更像是过滤器。在callback函数中，您将生成项目，它们将自动收集并放入管道中。我可以在process_links函数中建立数据库连接并直接写入数据数据库，但当scrapy通过Twisted内置异步数据库事务处理时，这并不是正确的方法。它包含starts_requests()和make_requests_from_url()函数，根据docs的说法，这些函

浏览 5提问于2015-12-16得票数 4

23回答

刮擦蜘蛛找不到错误

python、scrapy

这是Windows 7和python 2.7我的蜘蛛位于caps\caps\spiders\campSpider.py我加入了这个项目，然后尝试运行我犯了一个错误，就是找不到蜘蛛。spider = self.crawler.spiders.create(spname, **opts.spargs) File "c:\Python27\lib\site-packages\<

浏览 6提问于2012-03-26得票数 43

回答已采纳

1回答

在Scrapy中获取新的ASP.NET会话ID

python、asp.net、cookies、scrapy

我用Scrapy1.5编写了一个刮刀器，它成功地导航到一个网页(运行运行在IISV8.5上的ASP.NET )，提交一个表单，然后开始抓取。几个小时后，所有页面都开始返回空白数据。我相信当这种情况发生时，我的ASP.NET会话id将过期。我不可能通过整个表格(几千页)，同时以一个尊重的速度爬行，但该表不会改变在不同的会话。我的方法是抓取直到页面被返回为空白，然后返回到表单提交页面并

浏览 2提问于2018-05-15得票数 1

回答已采纳

8回答

scrapy可以用来从使用AJAX的网站抓取动态内容吗？

javascript、python、ajax、screen-scraping、scrapy

它一点也不花哨；它的唯一目的是从投注网站获取数据，并将这些数据放入Excel中。大多数问题都是可以解决的，我有一个很好的小混乱。然而，我在一个问题上遇到了巨大的障碍。如果一个网站加载了一个赛马表并列出了当前的投注价格，则此信息不在任何源文件中。线索是这些数据有时是实时的，数字显然是从某个远程服务器更新的。简而言之，我的问题是:如何使用scrapy来抓取这些动态数据，以便我可以使用它？这样我就可以实时收集这些投注赔率数据了？

浏览 8提问于2011-12-18得票数 156

回答已采纳

3回答

CrawlSpider如何知道如何处理已生成的请求对象？

python、scrapy

在Scrapy文档中，此代码用于说明如何将信息传递给回调函数。我的问题是，这个代码中的CrawlSpider类是如何执行生成的请求对象的？这是简单的编码行为吗？此外，是否使用yield而不是return来保持函数运行，并准备好在刮多个urls时接受更多的Response对象？如果只刮掉一个url，返回Request对象的效果会一样好吗？如果这些都是基本问题，我很抱歉，我以前没有使用过Python或Scrapy。def parse(self, respo

浏览 4提问于2022-06-11得票数 0

回答已采纳

1回答

抓取错蜘蛛

python、scrapy

在中，OP说我经历过同样的行为，也使用过同样的解决方案。对OP的响应都归结为删除所有.pyc文件。现在，当我在项目的根目录中运行scrapy爬行

浏览 3提问于2017-03-02得票数 0

回答已采纳

3回答

IMDB电影刮刀给出空白csv使用刮伤

python、web-scraping、scrapy、export-to-csv

我得到空白csv，虽然它没有显示任何错误的代码。它无法在网页中爬行。这就是我写的指youtube的代码：- class ThirdSpider(scrapy.Spider/div[@class="titleReviewBarSubItem"]/div/span/text()').extract()[

浏览 1提问于2019-01-17得票数 0

回答已采纳

2回答

从具有不同设置的脚本连续运行2个Scrapy* CrawlerProcess*

python、scrapy

我有两个不同的Scrapy爬虫，当启动时：当然，我知道我可以使用脚本中的系统调用来复制该命令，但我更喜欢坚持使用CrawlerProcess或任何其他从脚本中使其工作的方法。Exception as e:else: p

浏览 2提问于2017-05-30得票数 1

3回答

Scrapy XPath选择器文本的Unicode和UTF-8编码问题

python、django、unicode、utf-8、scrapy

我正在使用Scrapy和Python (作为Django项目的一部分)来抓取一个包含德语内容的站点。我已经安装了libxml2作为抓取选择器的后端。如果我通过选择器提取单词'Hüftsitz' (这是它在站点上的显示方式)，我得到：u'H\ufffd\ufffdftsitz' (Scrapy Unicode选择器返回XPath字符串)。如果我把它编码成UTF-8，我得到：'H\xef\xbf\xbd\xef\xbf\xbdftsitz'。如果我打

浏览 3提问于2011-04-12得票数 3

回答已采纳

4回答

无法单击分页中的下一步按钮

python、selenium、web-scraping、scrapy

我正在使用scrapy和scrapy-selenium，我无法处理分页，因为href只包含# symbol。class PropertyScraperSpider(scrapy.Spider): allowed_domains = ['www.samtrygg.se任何帮助都将不胜感激。

浏览 0提问于2020-08-13得票数 2

6回答

scrapy

python、web-scraping、scrapy、web-crawler、sitemap

我用的是scrapy。这个网站有很多帖子，但我只删掉了13篇。class exampleSpider(scrapy.Spider):#from_date = datetime.date.today() - datetime.timedelta[2]/div/div/div/div[3]/ul/li/div/h1/a

浏览 1提问于2016-05-13得票数 15

2回答

如何处理粗糙的合同？

python、unit-testing、python-2.7、web-scraping、scrapy

Scrapy合同问题我开始研究刮伤框架。也为提取实现了一些蜘蛛，但我无法为蜘蛛编写单元测试用例，因为scrapy提供的契约包文档没有编写测试用例的适当过程。请帮我处理这件事。

浏览 2提问于2014-09-10得票数 17

回答已采纳

2回答

帮助找出我的CentOS 5服务器崩溃的原因

mysql、centos、httpd

每隔几天我的服务器就会崩溃。负载平均值和内存使用率非常高，直到它停止响应所有请求。当这种情况发生时，Tne会发生一件奇怪的事情，那就是静态页面继续工作很好，即使在服务器负载很高的情况下，但是带有mysql查询的页面运行缓慢，有时甚至不响应请求。我在/var/log/messages上找不到任何可能发生</em

浏览 0提问于2011-09-19得票数 1

回答已采纳

1回答

Javascript到Python -理解类、方法和属性是如何工作的

python、python-2.7、inheritance、methods、scrapy

需要注意的重要事项之一是每个对象的name属性。在运行一个方法时，即使是在原型链的很远的地方，由this关键字定义的本地上下文也可以确保使用loc差点属性/变量。我在Scrapy中创建了一个蜘蛛，它(相当成功)在单个域上刮取2000+页面，并将它们解析成我需要的格式。许多仅在主parse_response方法中工作的帮助程序，我可以直接在数据上使用这些方法。当我概括所有内容<em

浏览 2提问于2014-12-27得票数 2

1回答

在使用deathbycaptcha服务处理Google v2时，如何控制scrapy中的请求流？

python、api、web-scraping、scrapy、recaptcha

)我正在使用python使用刮取web爬行框架，抓取一个网站并解决我在他们的页面上遇到的使用deathbycaptcha服务时遇到的captcha。无论如何，该页面允许您查找几个结果，在大约40到60页之后，它将重定向到一个具有recaptcha v2的captcha页面。如果你对为什么会有什么事情有任何疑问，只要问一问，我就可以解释。所以卡普查解决了。这不是问题所在。当刮板程序运

浏览 2提问于2018-07-20得票数 1

2回答

提高抓取爬虫的速度

scrapy

CONCURRENT_REQUESTS_PER_DOMAIN = 50DOWNLOAD_DELAY= 0 在检查了之后，我的抓取器仍然很慢，需要大约25个小时来抓取12000个页面(谷歌，亚马逊)，我使用Crawlera，我还可以做更多的事情来提高速度吗?当CONCURRENT_REQUESTS =50时，这是否意味着我有50个类似请求的线程？

浏览 0提问于2019-09-08得票数 0

点击加载更多