腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
EJB未注入
、
、
、
我的Java应用程序使用,它使用以下代码开始抓取:config.setCrawlStorageFolder("C:/crawler4j_storage");RobotstxtConfig robotstxtConfig = new RobotstxtConfig(); RobotstxtServer robotstxtServer = new RobotstxtServer(robotstxtC
浏览 3
提问于2012-07-01
得票数 0
回答已采纳
1
回答
如何将xml节点添加到symfony Crawler()
、
、
、
我没有问题将xml放入Crawler()
实例
,修改现有节点,然后将xml放入文件中。 谢谢你的回复
浏览 3
提问于2016-11-29
得票数 7
1
回答
如何在您自己的ami中管理应用程序?
在我们的例子中,我们可以通过以下步骤来设置
爬虫
: 但是当
爬虫
需要更新时,我们需要重复步骤3。它会影响其他设置,如自动缩放中的“ami-id”或其他spot
实例
请求脚本。“ami”中的应用程序管理是一个部署问题,因此我们需要建议使它尽可能
简单
。现在,还有另一种方法来管理它。我们使用源代码管理工具,部署步骤如
浏览 2
提问于2012-07-09
得票数 0
回答已采纳
1
回答
使用多个EC2
实例
爬行
、
我用python编写了一个爬行过程,它运行在亚马逊上的一个ec2
实例
上。我已经编写了这个
爬虫
,这样它就可以用它的结果向一个单独的"hub“
实例
报告。集线器处理
爬虫
的结果,
爬虫
可以自由地继续爬行。我在这个爬行
实例
中想到的是,克隆
爬虫
的几个
实例
很容易,每个
实例
都要向中心报告以便处理。
浏览 2
提问于2015-01-08
得票数 0
回答已采纳
1
回答
AWS Boto启动
实例
,部署Docker映像,运行和终止
、
、
、
我有一个网络
爬虫
,是一个码头形象。我想使用boto创建一个EC2
实例
,部署我的
爬虫
,运行这个
爬虫
,然后在它完成后终止这个
实例
。我现在的想法是: 我真的需要使用像Fabric这样的工具来对我的
实例</
浏览 0
提问于2018-03-19
得票数 2
1
回答
如果某个字段值不是唯一的,则rabbitmq丢弃消息?
、
我在我的网络
爬虫
中使用了一个ampq队列-每个
爬虫
实例
都将从队列中的消息中获得一个url,然后将它找到的url添加到队列中。 由于将有多个
爬虫
实例
,每个
实例
都可能找到相同的url并将其添加到队列中。
浏览 4
提问于2014-04-30
得票数 2
回答已采纳
4
回答
Java -销毁正在执行某些操作的对象
、
我的应用程序允许用户创建一系列的网络
爬虫
,这些
爬虫
保存在一个数组列表中。每个crawler都有一个进度面板gui,显示已爬行的页面等,并允许用户暂停该
爬虫
。但是,用户可能还想“终止”该
爬虫
程序。应该注意的是,Crawler类的每个
实例
都有一个Scraper类的
实例
,而Scraper类又有一个DatabaseConnection类的
实例
。
浏览 4
提问于2011-07-08
得票数 0
回答已采纳
1
回答
如何将与Luigi数据管道集成?
、
、
、
、
我目前正在构建一个Python后端,该后端将部署到一个AWS EC2
实例
中,该
实例
具有以下体系结构: 网络
爬虫
数据-保存到S3* =\任何建议,文件,或文章将是超级感谢!
浏览 1
提问于2017-06-13
得票数 3
回答已采纳
2
回答
简单
递归web
爬虫
、
、
我做了一个
简单
的网络
爬虫
,我知道有很多更好的,但我认为自己的滚动将是一个宝贵的学习经验。 问题是我认为这里有些东西我可以改进。
浏览 0
提问于2017-02-07
得票数 6
回答已采纳
3
回答
Scrapy -如何启动同一
爬虫
进程的多个
实例
?
、
、
、
我在启动同一
爬虫
的多个
实例
时被卡住了。我想让它像一个
爬虫
实例
的1url一样运行。我必须处理50k个urls,为此,我需要为每个urls启动单独的
实例
。在我的主要
爬虫
脚本中,我设置了7分钟的closedpider超时,以确保我不会爬行很长时间。但之后当传递第二个url时,它会显示以下错误:ReactorNotRestartable 请建议我应该做些什么才能让它为同一个
爬虫
的多个
实例
浏览 1
提问于2015-11-13
得票数 6
2
回答
浏览器限制会影响网页
爬虫
吗?
、
、
return Redirect("/h"); return View(); 问题:如果我限制一些浏览器访问我的主视图,它也会限制对网络
爬虫
的访问吗
浏览 0
提问于2013-02-21
得票数 0
回答已采纳
1
回答
如何在nodejs中运行多个
实例
而不重复作业
、
、
、
当我将项目(nestjs)扩展到多个
实例
时,我遇到了问题。在我的项目中,我有一个每10分钟运行一次的
爬虫
服务。当2个
实例
运行时,
爬虫
将在两个
实例
上运行,因此数据将重复。有人知道怎么处理吗?
浏览 9
提问于2022-09-09
得票数 1
1
回答
web +工作人员角色成本
、
、
、
我必须使用Azure在后台运行web
爬虫
。 根据我的理解,我必须设置一个配置了后台任务的工作人员角色,并且我必须设置一个web角色来显示网站ASP.NET MVC。一个
简单
的问题:它是如何为付款工作的?两个不同的角色意味着两个不同的
实例
?或者我可以重用托管两个不同角色的同一个
实例
?
浏览 1
提问于2011-07-15
得票数 1
2
回答
Scrapy在所有爬行器关闭时获得通知
、
、
scrapyd.schedule("default", spider, list_id=list.id, spiders_number=3)在蜘蛛之间交换数据是可能的吗?
浏览 1
提问于2020-03-26
得票数 0
1
回答
除了后端和API之外,还能用于其他进程吗?
、
、
谷歌应用引擎可以用来运行网络
爬虫
吗?由于google应用引擎用于后端和app,我担心在应用程序引擎上部署这样的
爬虫
系统会有其局限性。
浏览 0
提问于2018-04-05
得票数 0
回答已采纳
2
回答
在Scrapy >= 0.14中编程启动
爬虫
最
简单
的方法是什么?
、
、
我想从Python模块在Scrapy中启动一个
爬虫
。my_crawler -a some_arg=value -L DEBUG的本质 使用settings.py中的设置和具有my_crawler名称属性的
爬虫
启动爬行(我可以轻松地从测试模块
实例
化这个类在
爬虫
完成之前,我很高兴这
浏览 1
提问于2012-06-26
得票数 9
4
回答
PHP警告: exec()无法分叉
、
我有
爬虫
脚本,运行从每个网站抓取产品。由于每个网站是不同的,每个
爬虫
脚本必须定制,以抓取特定的零售商网站。所以基本上每个零售商我有一个
爬虫
。在这个时候,我有21个
爬虫
不断运行,以收集和更新这些网站的产品。每个
爬虫
都是一个php文件,一旦完成了php脚本,它就会检查,以确保它是唯一运行的
实例
,并且在脚本的最末端,它使用exec再次启动自己,而原始
实例
关闭。不过,最近我将检查
爬虫
脚本,并注意到其中一个脚本不再运行,在错误日志中我发现了以下内容。,然而,因为
浏览 7
提问于2013-12-18
得票数 13
回答已采纳
1
回答
分布式系统中的任务分配
、
我的
爬虫
使用卡夫卡把爬行的网站对象的一个主题和水槽将重定向输出到Solr。有多个
爬虫
产生数据卡夫卡。 我的问题是:当一个
爬虫
想要爬一个网站,其他
爬虫
不应该尝试爬行它。如何在分布式环境中与它们通信?
浏览 0
提问于2017-06-01
得票数 2
1
回答
Selenium -方法quit()和close()不能正常工作
、
、
、
我在一个
爬虫
项目上工作,那里有3台机器,每个机器执行10个
实例
。存在一个方法tearDown,用于在完成整个
爬虫
进程时关闭
实例
。driver.close(); }我要解决的问题是,在某些情况下,当流程完成时,来自chromedriver.exe的一些
实例
被困在任务管理器中我已经尝试过使用taskkill的接近
实例
,但在某些情况下不起作用。 对不起我的英语不好。
浏览 5
提问于2022-11-21
得票数 0
1
回答
Apache Nutch工作
实例
的最大数量
、
一个主节点可以同时运行的Apache Nutch crawler
实例
的最大数量是多少?
浏览 0
提问于2015-12-17
得票数 7
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
利用 Python 编写简单网络爬虫实例 2
利用 Python 编写简单网络爬虫实例 1
利用 Python 编写简单网络爬虫实例 3
Python爬虫实例
Python 爬虫:Beautiful Soup 实例(一)
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
实时音视频
活动推荐
运营活动
广告
关闭
领券