腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
从
PHP
/HTML或
PHP
服务器调用scrapy脚本
、
、
、
、
我有一个刮擦的脚本,它将运行多个
蜘蛛
。我想从
PHP
/HTML代码中
爬行
单个
蜘蛛
或运行多个
蜘蛛
脚本。这有可能吗?如果是这样的话,是怎么做的?
浏览 2
提问于2015-11-22
得票数 0
回答已采纳
1
回答
如何防止Scrapy
爬行
“拒绝”页面
、
、
我正在尝试
爬行
一个域的所有页面,除了那些从/go.
php
开始的页面,但是我不知道如何让Scrapy理解它。我尝试过这个规则(这是我的CrawlSpider中定义的唯一规则),但是它仍然
爬行
像domain.tld/go.
php
?key=value这样的URL。.*' '\\/go\\.
php
(.*)', '
浏览 3
提问于2014-01-11
得票数 0
1
回答
htaccess选项-Indexes会防止
蜘蛛
和搜索引擎在目录中
爬行
文件吗?
、
设置带有-Indexes选项的htaccess文件会防止
蜘蛛
和搜索引擎
爬行
这些目录中的文件吗? 仅仅在目录中有一个index.html或index.
php
会阻止目录被
爬行
吗?
浏览 3
提问于2018-02-11
得票数 0
回答已采纳
3
回答
普通浏览器中的用户代理是否包含“bot”或“
爬行
”?
普通浏览器中的用户代理是否包含“bot”或“
爬行
”? 我检查我的网站上的用户代理,看看它是否来自一个机器人。如果是的话,我可以做一些小的优化,因为他们没有登录。所以我想知道它是只包含“机器人”还是“
爬行
”。我知道这不会得到所有的机器人,但它会得到很多。但如果这可能导致任何错误,那么它将完全混乱的能力,添加到购物车,下订单,并登录。
浏览 0
提问于2010-10-11
得票数 12
回答已采纳
3
回答
为什么所有搜索引擎都收录就360不收呢?
做个了
蜘蛛
爬行
记录
一个360的都没。在他站长工具什么天极加了一倍的
蜘蛛
爬行
可就是不行。难道360做小动作禁止了腾讯云的ip?不知道有没有遇到过?
浏览 571
提问于2015-12-30
1
回答
BaseSpider和CrawlSpider在一起
、
我想知道是否有一种方法同时使用基础
蜘蛛
以及
爬行
蜘蛛
在同一
蜘蛛
在刮刮!假设我只想
爬行
start_url中提到的一个start_url,并对同一个start_url中提到的另一个页面使用
爬行
蜘蛛
,那么我将如何在同一个程序中使用它们?
浏览 0
提问于2014-02-04
得票数 1
回答已采纳
1
回答
空调度程序,在scrapy中使用URL填充调度程序
、
问题是,我正在使用代理刮一个网站,所以网站将关闭一些我需要的信息,当我向网站请求后,一些计数。所以我要做的是,在没有登录+代理的情况下,尽可能多地抓取,但是经过一些抓取之后,我才知道这个站点不允许数据。所以现在我必须登录!(现在登录+代理),所以在登录后我继续刮。现在的问题是,队列(Scheduler)中已经有一些URL没有登录就会被抓取(所以我想用登录获取那个URL,这样我就可以成功地抓取数据)。所以,,我想要空调度程序,它包括不需要登录的url .。1。我登录(成功)。3并将优先级1设置为登录URl1。重新加载所有排
浏览 1
提问于2020-01-16
得票数 0
1
回答
Scrapy如何多次编写CSV文件
、
、
我用抓取和python 2.7.9,我的
蜘蛛
可以正常地
爬行
数据。我该怎么做?我只能用“
蜘蛛
”来做吗?或者是在“管道”里?我的代码链接:
浏览 3
提问于2015-03-13
得票数 0
回答已采纳
2
回答
蜘蛛
只在站点地图中
爬行
urls吗?
、
、
、
、
我在我的网站上有一些限制部分供
蜘蛛
爬行
。或者我应该将下面的元标记添加到我想限制访问的页面中?
浏览 1
提问于2014-10-29
得票数 0
回答已采纳
1
回答
如何生成由我的站点服务的所有有效URL的列表
、
这份名单是由另一个系的一所学院出于
记录
原因而要求的。 如果不需要代码更改(因为它是生产站点),而代码更改需要通过代码评审并要求发布,那么答案将特别有用,但是如果有必要的话,那么它就是必要的。
浏览 0
提问于2014-03-14
得票数 2
回答已采纳
1
回答
共享访问访问的urls在多个
蜘蛛
之间的刮刮?
、
、
、
我正在使用scrapyd运行多个
蜘蛛
作为作业跨越同一领域。我以为scrapy有一个访问urls的哈希表,当它
爬行
时,它与其他
蜘蛛
共享和协调。当我创建同一
蜘蛛
的实例时 curl http://localhost:6800/schedule.json -d project=projectname -d spider=spidername.它只是
爬行
相同的urls,重复的数据正在被抓取。以前有人处理过类似的问题吗?
浏览 0
提问于2014-04-13
得票数 0
回答已采纳
1
回答
将请求传递给不同的
蜘蛛
、
、
我正在开发一个使用两种不同
蜘蛛
的网络爬虫(使用scrapy): 将所有的功能移到
蜘蛛
1,
浏览 2
提问于2017-08-09
得票数 1
1
回答
一只一只地跑多只
蜘蛛
、
、
我正在使用Scrapy框架让
蜘蛛
爬过一些网页。基本上,我想要的是刮网页并将它们保存到数据库中。我每个网页都有一只
蜘蛛
。但是我很难同时运行这些
蜘蛛
,以至于一只
蜘蛛
在另一只
蜘蛛
完成
爬行
后才开始
爬行
。
浏览 3
提问于2014-02-11
得票数 0
回答已采纳
2
回答
抓取Django限制链接
爬行
、
、
首先,我应该说,我对刮擦和
蜘蛛
网站完全陌生。 你能限制
爬行
的链接数量吗?我有一个网站,不使用分页,只是列出了很多链接(我
爬行
)在他们的主页。当我真的需要
爬行
前10个左右的时候,我感觉很糟糕
爬行
所有这些链接。如何同时运行多个
蜘蛛
?现在,我使用的是命令scrapy crawl example.com,但我还为example2.com和example3.com提供了
蜘蛛
。我想用一个命令来运行我所有的
蜘蛛
。这有可能吗?
浏览 2
提问于2010-11-24
得票数 6
1
回答
网页
爬行
技术的信息
、
我正在构建一个小型的网络爬虫,我想知道是否有人对实际的实现有一些有趣的信息(只是
爬行
,没有搜索,没有排名,没有分类,只是
爬行
,亲吻:)。为了
记录
在案,我已经有了O‘’Reilly“
蜘蛛
黑客”和“无淀粉出版社”的“网络机器人、
蜘蛛
和屏幕刮刀”。这些书很好,但是它们倾向于保持简单,对于缩放、存储数据、并行的东西和其他更高级的主题不详细。
浏览 5
提问于2009-05-18
得票数 2
1
回答
Python Scrapy不
爬行
网站
、
、
、
请帮助我,或给我一些建议,我如何可以
爬行
整个网站或更多的网页,在一般情况下.import scrapy title = scrapy.Field() 我的wikip.py (
蜘蛛
浏览 4
提问于2016-05-19
得票数 0
1
回答
网络爬虫设计中的DFS与BFS
、
、
我想出一个面试问题,想知道你对此的看法。问题是在设计网络爬虫时:2)如何避免进入无限循环?
浏览 1
提问于2013-12-14
得票数 6
回答已采纳
1
回答
用Anaconda运行抓取
蜘蛛
、
、
、
你好,我正在努力完成在以下网站上找到的教程: 文件"//anaconda/lib/python2.7/site-packages/scrapy/spiderloader.py",第43行,在load KeyError(“
蜘蛛
未找到:{}".format(spider_name)) KeyEr
浏览 5
提问于2016-10-06
得票数 2
回答已采纳
1
回答
多核执行刮除
、
、
我可以管理我的
蜘蛛
使用其他CPU核心或多个相同的
蜘蛛
并行运行吗?'available_pos_date', '//div[@class="fiche-items"]/div/p/text()') 基本上这是我的
蜘蛛
浏览 3
提问于2018-03-02
得票数 1
回答已采纳
1
回答
刮刀、
爬行
器和
蜘蛛
在抓取中的区别
、
、
“替罪羊”、“爬虫”和“
蜘蛛
”这几个词令人困惑。
浏览 3
提问于2015-12-14
得票数 11
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
搜索引擎蜘蛛为什么对网站不爬行呢?
从业多年的SEO大牛讲述快速吸引蜘蛛爬行网站的技巧
搜索引擎的网络爬虫、网页蜘蛛爬行知识分享,robots协议能阻止站点被爬吗
php宝塔搭建实战防诈记录妖妖灵php源码
如何书写网站robots文件,让蜘蛛有自知之明?
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
即时通信 IM
活动推荐
运营活动
广告
关闭
领券