腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9965)
视频
沙龙
1
回答
Scrapy
日志
显示
页面
已
爬行
,
但未
找到
任何
对象
。
当
使用
scrapy
shell
时
,它
可以
工作
,
但
当我
导出
结果
时
,
就会
发生
这种
情况
。
python
、
scrapy
我正在抓取this,我已经抓取了不同领域的这个链接,
但
一旦我在一个抓取项目中这样做,什么都不起作用。这是我的爬虫文件代码: import
scrapy
from
scrapy
.loader import ItemLoader name="pubgspider&q
浏览 9
提问于2019-01-09
得票数 0
2
回答
Scrapy
- Xpath
可以
在
shell
中运行,但不能在代码中运行
python
、
xpath
、
web-scraping
、
web-crawler
、
scrapy-spider
我正在尝试抓取一个网站(我得到了他们的授权),我的代码在
scrapy
shell
中返回了我想要的东西,但我的
爬行
器什么也得不到。我想要理解为什么xpath选择器与
scrapy
shell
一起
工作
(我得到的正是我需要的链接),但是
当我
在我的
爬行
器中运行
它
时
,我总是得到一个null列表。如果它能提供帮助,
当我
在
爬行
器中
使用
CSS选择器
时
,它
可
浏览 36
提问于2018-04-25
得票数 1
回答已采纳
8
回答
禁止在管道后打印
日志
中的
Scrapy
项目
python
、
scrapy
在我的
爬行
器和管道中,一切都
工作
正常。然而,
日志
在
它
离开管道
时
打印出整个
scrapy
项(我相信):2013-01-17 18:42:18-0600 [tutorial] INFO: Closing spider (finished) 如果
可以
避免的话,
浏览 0
提问于2013-01-18
得票数 28
回答已采纳
2
回答
刮擦的CrawlSpider什么都不
爬行
python
、
scrapy
、
scrapy-spider
蜘蛛不需要打开和
爬行
url.Output 1:,我对python和
Scrapy
就不熟悉了。这是我到目前为止编写的代码。请指出我做错了什么。import
scrapy
from
scrapy
.contrib.spiders import CrawlSpider, Rulefrom
scrapy
.item import Item from
scrapy
.loader imp
浏览 4
提问于2017-06-19
得票数 2
回答已采纳
2
回答
理解粗糙的框架体系结构
python
、
scrapy
、
scrapy-spider
、
scrapy-pipeline
但是,虽然callback参数指向作为项生成器的函数,
但
process_links参数的
工作
方式更像是过滤器。在callback函数中,您将生成项目,它们将自动收集并放入管道中。我
可以
在process_links函数中建立数据库连接并直接写入数据数据库,
但
当
scrapy
通过Twisted内置异步数据库事务处理
时
,这并不是正确的方法。
它
包含starts_requests()和make_requests_from_url()函数,根据docs的说法,这些函
浏览 5
提问于2015-12-16
得票数 4
23
回答
刮擦蜘蛛找不到错误
python
、
scrapy
这是Windows 7和python 2.7我的蜘蛛位于caps\caps\spiders\campSpider.py我加入了这个项目,然后尝试运行我犯了一个错误,就是找不到蜘蛛。spider = self.crawler.spiders.create(spname, **opts.spargs) File "c:\Python27\lib\site-packages\<
浏览 6
提问于2012-03-26
得票数 43
回答已采纳
1
回答
在
Scrapy
中获取新的ASP.NET会话ID
python
、
asp.net
、
cookies
、
scrapy
我用
Scrapy
1.5编写了一个刮刀器,
它
成功地导航到一个网页(运行运行在IISV8.5上的ASP.NET ),提交一个表单,然后开始抓取。几个小时后,所有
页面
都开始返回空白数据。我相信
当
这种
情况
发生
时
,我的ASP.NET会话id将过期。我不可能通过整个表格(几千页),同时以一个尊重的速度
爬行
,
但
该表不会改变在不同的会话。我的方法是抓取直到
页面
被返回为空白,然后返回到表单提交
页面
并
浏览 2
提问于2018-05-15
得票数 1
回答已采纳
8
回答
scrapy
可以
用来从
使用
AJAX的网站抓取动态内容吗?
javascript
、
python
、
ajax
、
screen-scraping
、
scrapy
它
一点也不花哨;
它
的唯一目的是从投注网站获取数据,并将这些数据放入Excel中。 大多数问题都是
可以
解决的,我有一个很好的小混乱。然而,我在一个问题上遇到了巨大的障碍。如果一个网站加载了一个赛马表并列出了当前的投注价格,则此信息不在
任何
源文件中。线索是这些数据有时是实时的,数字显然是从某个远程服务器更新的。简而言之,我的问题是:如何
使用
scrapy
来抓取这些动态数据,以便我
可以
使用
它?这样我就
可以
实时收集这些投注赔率数据了?
浏览 8
提问于2011-12-18
得票数 156
回答已采纳
3
回答
CrawlSpider如何知道如何处理
已
生成的请求
对象
?
python
、
scrapy
在
Scrapy
文档中,此代码用于说明如何将信息传递给回调函数。我的问题是,这个代码中的CrawlSpider类是如何执行生成的请求
对象
的?这是简单的编码行为吗?此外,是否
使用
yield而不是return来保持函数运行,并准备好在刮多个urls
时
接受更多的Response
对象
?如果只刮掉一个url,返回Request
对象
的效果会一样好吗?如果这些都是基本问题,我很抱歉,我以前没有
使用
过Python或
Scrapy
。def parse(self, respo
浏览 4
提问于2022-06-11
得票数 0
回答已采纳
1
回答
抓取错蜘蛛
python
、
scrapy
在中,OP说 我经历过同样的行为,也
使用
过同样的解决方案。对OP的响应都归结为删除所有.pyc文件。现在,
当我
在项目的根目录中运行
scrapy
爬行
浏览 3
提问于2017-03-02
得票数 0
回答已采纳
3
回答
IMDB电影刮刀给出空白csv
使用
刮伤
python
、
web-scraping
、
scrapy
、
export-to-csv
我得到空白csv,虽然
它
没有
显示
任何
错误的代码。
它
无法在网页中
爬行
。这就是我写的指youtube的代码:- class ThirdSpider(
scrapy
.Spider/div[@class="titleReviewBarSubItem"]/div/span/text()').extract()[
浏览 1
提问于2019-01-17
得票数 0
回答已采纳
2
回答
从具有不同设置的脚本连续运行2个
Scrapy
CrawlerProcess
python
、
scrapy
我有两个不同的
Scrapy
爬虫,
当
启动
时
:当然,我知道我
可以
使用
脚本中的系统调用来复制该命令,但我更喜欢坚持
使用
CrawlerProcess或
任何
其他从脚本中使其
工作
的方法。Exception as e:else: p
浏览 2
提问于2017-05-30
得票数 1
3
回答
Scrapy
XPath选择器文本的Unicode和UTF-8编码问题
python
、
django
、
unicode
、
utf-8
、
scrapy
我正在
使用
Scrapy
和Python (作为Django项目的一部分)来抓取一个包含德语内容的站点。我已经安装了libxml2作为抓取选择器的后端。如果我通过选择器提取单词'Hüftsitz' (这是它在站点上的
显示
方式),我得到:u'H\ufffd\ufffdftsitz' (
Scrapy
Unicode选择器返回XPath字符串)。如果我把
它
编码成UTF-8,我得到:'H\xef\xbf\xbd\xef\xbf\xbdftsitz'。如果我打
浏览 3
提问于2011-04-12
得票数 3
回答已采纳
4
回答
无法单击分页中的下一步按钮
python
、
selenium
、
web-scraping
、
scrapy
我正在
使用
scrapy
和
scrapy
-selenium,我无法处理分页,因为href只包含# symbol。class PropertyScraperSpider(
scrapy
.Spider): allowed_domains = ['www.samtrygg.se
任何
帮助都将不胜感激。
浏览 0
提问于2020-08-13
得票数 2
6
回答
scrapy
python
、
web-scraping
、
scrapy
、
web-crawler
、
sitemap
我用的是
scrapy
。这个网站有很多帖子,但我只删掉了13篇。class exampleSpider(
scrapy
.Spider):#from_date = datetime.date.today() - datetime.timedelta[2]/div/div/div/div[3]/ul/li/div/h1/a
浏览 1
提问于2016-05-13
得票数 15
2
回答
如何处理粗糙的合同?
python
、
unit-testing
、
python-2.7
、
web-scraping
、
scrapy
Scrapy
合同问题 我开始研究刮伤框架。也为提取实现了一些蜘蛛,但我无法为蜘蛛编写单元测试用例,因为
scrapy
提供的契约包文档没有编写测试用例的适当过程。请帮我处理这件事。
浏览 2
提问于2014-09-10
得票数 17
回答已采纳
2
回答
帮助找出我的CentOS 5服务器崩溃的原因
mysql
、
centos
、
httpd
每隔几天我的服务器
就会
崩溃。负载平均值和内存
使用
率非常高,直到
它
停止响应所有请求。
当
这种
情况
发生
时
,Tne会
发生
一件奇怪的事情,那就是静态
页面
继续
工作
很好,即使在服务器负载很高的
情况
下,但是带有mysql查询的
页面
运行缓慢,有时甚至不响应请求。我在/var/log/messages上找不到
任何
可能
发生</em
浏览 0
提问于2011-09-19
得票数 1
回答已采纳
1
回答
Javascript到Python -理解类、方法和属性是如何
工作
的
python
、
python-2.7
、
inheritance
、
methods
、
scrapy
需要注意的重要事项之一是每个
对象
的name属性。在运行一个方法
时
,即使是在原型链的很远的地方,由this关键字定义的本地上下文也
可以
确保
使用
loc差点属性/变量。 我在
Scrapy
中创建了一个蜘蛛,
它
(相当成功)在单个域上刮取2000+
页面
,并将它们解析成我需要的格式。许多仅在主parse_response方法中
工作
的帮助程序,我
可以
直接在数据上
使用
这些方法。
当我
概括所有内容<em
浏览 2
提问于2014-12-27
得票数 2
1
回答
在
使用
deathbycaptcha服务处理Google v2
时
,如何控制
scrapy
中的请求流?
python
、
api
、
web-scraping
、
scrapy
、
recaptcha
)我正在
使用
python
使用
刮取web
爬行
框架,抓取一个网站并解决我在他们的
页面
上遇到的
使用
deathbycaptcha服务
时
遇到的captcha。无论如何,该
页面
允许您查找几个
结果
,在大约40到60页之后,它将重定向到一个具有recaptcha v2的captcha
页面
。如果你对为什么会有什么事情有
任何
疑问,只要问一问,我就
可以
解释。所以卡普查解决了。这不是问题所在。
当
刮板程序运
浏览 2
提问于2018-07-20
得票数 1
2
回答
提高抓取爬虫的速度
scrapy
CONCURRENT_REQUESTS_PER_DOMAIN = 50DOWNLOAD_DELAY= 0 在检查了之后,我的抓取器仍然很慢,需要大约25个小时来抓取12000个
页面
(谷歌,亚马逊),我
使用
Crawlera,我还
可以
做更多的事情来提高速度吗?
当
CONCURRENT_REQUESTS =50
时
,这是否意味着我有50个类似请求的线程?
浏览 0
提问于2019-09-08
得票数 0
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
对象存储
云点播
即时通信 IM
活动推荐
运营活动
广告
关闭
领券