腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
尖叫的青蛙爬行,图片,JS和CSS文件
、
、
、
当我插入我的网站URL在自由版本的尖叫青蛙,它也列出图片,CSS和JS文件。应该是这样的吗?
浏览 0
提问于2020-02-26
得票数 1
回答已采纳
1
回答
在包含"sometext“的网页中获取链接的xpath
、
、
我正在使用scrapy (网络爬行框架)。是否可以在网页中获取某个元素(包含"sometext")的xpath,以便提取具有类似xpath的元素?我不希望我的xpath被硬编码,因为我将爬行多个网站。
浏览 2
提问于2016-01-16
得票数 0
回答已采纳
1
回答
web爬虫如何构建URL目录以
抓取
所需内容
、
、
、
我在试着了解网络爬行是如何工作的。有三个问题:
浏览 2
提问于2018-10-11
得票数 1
1
回答
抓取
错
蜘蛛
、
在中,OP说 " name :定义此
蜘蛛
名称的字符串。
蜘蛛
名称是由Scrapy定位(并实例化)
蜘蛛
的方式,所以它必须是唯一的。但是,没有什么可以阻止您实例化同一
蜘蛛</em
浏览 3
提问于2017-03-02
得票数 0
回答已采纳
1
回答
抓取
蜘蛛
提取正确的url,但忽略url参数。
、
、
我有一个
抓取
爬行器,它使用这样的规则使用SgmlLinkExtractor从图像地图中提取链接,提前谢谢。
浏览 3
提问于2012-07-26
得票数 0
1
回答
Scrapy -类似rq worker的调度进程
、
、
我需要安排不同时区的
抓取
蜘蛛
。以前我在python脚本中使用了rq worker,它不支持scrapy spider。 好心的任何人都可以提出计划
抓取
蜘蛛
的想法。
浏览 17
提问于2020-05-09
得票数 0
1
回答
刮取递归刮取无法爬行所有页。
、
我正在尝试递归地从一个中文网站上
抓取
数据。我让我的
蜘蛛
跟随“下一页”网址,直到没有“下一页”可用为止。下面是我的
蜘蛛
:from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors.sgml如果我们一次只能刮15页,有没有办法开始从某一页
抓取
,比如说,第16页?非常感谢!
浏览 2
提问于2015-10-19
得票数 0
回答已采纳
3
回答
为什么部署腾讯云CDN加速以后,百度
蜘蛛
就
抓取
不了了?
[图片][图片]
浏览 1667
提问于2018-02-27
1
回答
如何恢复一个爬虫,有能力重新开始它离开的地方off.using网络
抓取
和python
、
如何恢复一个
蜘蛛
,有能力重新启动它离开的地方off.using网络
抓取
和巨蟒。我不能重新启动
蜘蛛
。
浏览 5
提问于2018-11-29
得票数 0
1
回答
刮痕:如何改变不同
蜘蛛
使用图像表存储图像的位置?
、
、
、
我有一个带有5个
蜘蛛
的Scrapy项目,每个
蜘蛛
都会
抓取
图像,并将其存储在路径在settings.py中指定的目录中。但是我想把这些图片存储在不同的位置,供不同的
蜘蛛
使用。是否有一种方法来指定
蜘蛛
内的路径?
浏览 0
提问于2018-02-10
得票数 0
1
回答
使用网页触发刮伤外壳
、
、
、
、
我已经编写了一个
蜘蛛
,它从命令行提取start_urls并开始
抓取
。在此之前,一切都很好。
浏览 2
提问于2015-08-11
得票数 2
回答已采纳
1
回答
如何用刮擦爬行多个域
、
、
所有这些网站爬行都可以使用相同的
蜘蛛
,因为我不需要从它的正文页面中提取项目。我认为的方法是将要在
蜘蛛
文件中爬行的域参数化,并调用scrapy爬行命令,传递域并启动urls作为参数,这样我就可以避免为每个站点生成一个
蜘蛛
(站点列表将随着时间的推移而增加)。如果是的话,如果我用不同的参数调度同一个
蜘蛛
几次,那么是否存在并发问题? 如果这不是最好的方法,最好是每个站点创建一个
蜘蛛
.我将不得不经常更新这个项目。项目更新会影响运行中的
蜘蛛
吗?
浏览 2
提问于2014-07-01
得票数 4
回答已采纳
2
回答
抓取
\
蜘蛛
保护
、
、
、
、
我相信有许多现有的技术和框架可以执行一些智能
抓取
保护,所以我不需要重新发明轮子。我通过mod_wsgi使用Python和Apache。
浏览 5
提问于2011-12-19
得票数 1
1
回答
如何仅从站点导出已使用的css?
、
没有灰
蜘蛛
。没有火虫。 我已经做了一个项目,我只想导出在项目或页面中使用的CSS。我试过了,灰尘
蜘蛛
和萤火虫,但这些附加的
抓取
所有的CSS的项目!我只需要
抓取
已使用的CSS,并将其导出到另一个CSS文件。是否有这样的程序存在?
浏览 4
提问于2014-01-28
得票数 4
回答已采纳
1
回答
将报头和有效负载导入Scrapy
、
我一直在使用firebug,我有下面的字典来查询api。'origin': "site.com",'user-agent': "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWe
浏览 0
提问于2016-05-25
得票数 0
回答已采纳
2
回答
刮伤机构或规则不起作用
、
、
、
这是我的
蜘蛛
from scrapy.linkextractors import LinkExtractor当我使用命令“”运行
蜘蛛
时:我得到了“解析!”,所以它只属于解析函数,而不是细节方法。
浏览 8
提问于2017-08-01
得票数 0
回答已采纳
1
回答
Scrapy如何多次编写CSV文件
、
、
我用
抓取
和python 2.7.9,我的
蜘蛛
可以正常地爬行数据。我该怎么做?我只能用“
蜘蛛
”来做吗?或者是在“管道”里?我的代码链接:
浏览 3
提问于2015-03-13
得票数 0
回答已采纳
1
回答
Scrapy:网站正在减慢我的请求
、
我用scrapy写了一个
蜘蛛
。每次我尝试
抓取
一个特定的网站时,爬虫在一开始都运行得很好。但是当我下降到500-600个请求时,
蜘蛛
开始爬行得非常慢。 我检查了内存和cpu设置,但这不是问题所在。如何调整scrapy以快速一致地
抓取
?
浏览 2
提问于2020-07-30
得票数 0
1
回答
当指定了一个spider_idle时,会调用DOWNLOAD_DELAY吗?
我正在写一个
蜘蛛
,用于从一个汽车共享网站上
抓取
有关汽车的数据。目的是把我的
蜘蛛
分成两部分。首先,它收集可用汽车的数据,并将不可用的汽车放在一边。第二,一旦所有关于可用汽车的信息都被刮掉,因此在过程结束时,
蜘蛛
就会为不可用的汽车
抓取
额外的信息。对于第二部分,我在
蜘蛛
中添加了spider_idle方法。
浏览 6
提问于2021-02-21
得票数 1
回答已采纳
6
回答
如何给
抓取
URL
抓取
抓取
?
、
在中,可以给出
蜘蛛
的名称或URL,但是当我给出url时它会抛出一个错误: 文件"/usr/local/lib/python2.7/dist-packages/Scrapy-0.14.1-py2.7.egg/scrapy/spidermanager.p
浏览 3
提问于2012-03-13
得票数 35
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何吸引百度蜘蛛来抓取页面,蜘蛛抓取页面的因素
如何提升蜘蛛的抓取频率?
提升蜘蛛抓取效率缩短排名
网站SEO优化之如何提升蜘蛛抓取频率?
如何限制蜘蛛的抓取流量来提升seo效果
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
实时音视频
活动推荐
运营活动
广告
关闭
领券