腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
使用多个EC2
实例
爬行
、
我用python编写了一个爬行过程,它运行在亚马逊上的一个ec2
实例
上。我已经编写了这个
爬虫
,这样它就可以用它的结果向一个单独的"hub“
实例
报告。集线器处理
爬虫
的结果,
爬虫
可以自由地继续爬行。我在这个爬行
实例
中想到的是,克隆
爬虫
的几个
实例
很容易,每个
实例
都要向中心报告以便处理。
浏览 2
提问于2015-01-08
得票数 0
回答已采纳
1
回答
如何在您自己的ami中管理应用程序?
在我们的例子中,我们可以通过以下步骤来设置
爬虫
:
浏览 2
提问于2012-07-09
得票数 0
回答已采纳
1
回答
AWS Boto启动
实例
,部署Docker映像,运行和终止
、
、
、
我有一个网络
爬虫
,是一个码头形象。我想使用boto创建一个EC2
实例
,部署我的
爬虫
,运行这个
爬虫
,然后在它完成后终止这个
实例
。我现在的想法是: 我真的需要使用像Fabric这样的工具来对我的
实例</
浏览 0
提问于2018-03-19
得票数 2
3
回答
Scrapy -如何启动同一
爬虫
进程的多个
实例
?
、
、
、
我在启动同一
爬虫
的多个
实例
时被卡住了。我想让它像一个
爬虫
实例
的1url一样运行。我必须处理50k个urls,为此,我需要为每个urls启动单独的
实例
。在我的主要
爬虫
脚本中,我设置了7分钟的closedpider超时,以确保我不会爬行很长时间。请参考下面的
代码
:from scrapy.utils.project import get_project_settings但之后当传递第二个ur
浏览 1
提问于2015-11-13
得票数 6
1
回答
如果某个字段值不是唯一的,则rabbitmq丢弃消息?
、
我在我的网络
爬虫
中使用了一个ampq队列-每个
爬虫
实例
都将从队列中的消息中获得一个url,然后将它找到的url添加到队列中。 由于将有多个
爬虫
实例
,每个
实例
都可能找到相同的url并将其添加到队列中。
浏览 4
提问于2014-04-30
得票数 2
回答已采纳
4
回答
Java -销毁正在执行某些操作的对象
、
我的应用程序允许用户创建一系列的网络
爬虫
,这些
爬虫
保存在一个数组列表中。每个crawler都有一个进度面板gui,显示已爬行的页面等,并允许用户暂停该
爬虫
。但是,用户可能还想“终止”该
爬虫
程序。应该注意的是,Crawler类的每个
实例
都有一个Scraper类的
实例
,而Scraper类又有一个DatabaseConnection类的
实例
。
浏览 4
提问于2011-07-08
得票数 0
回答已采纳
1
回答
如何在nodejs中运行多个
实例
而不重复作业
、
、
、
当我将项目(nestjs)扩展到多个
实例
时,我遇到了问题。在我的项目中,我有一个每10分钟运行一次的
爬虫
服务。当2个
实例
运行时,
爬虫
将在两个
实例
上运行,因此数据将重复。有人知道怎么处理吗?
浏览 9
提问于2022-09-09
得票数 1
1
回答
EJB未注入
、
、
、
我的Java应用程序使用,它使用以下
代码
开始抓取:config.setCrawlStorageFolder("C:/crawler4j_storage
浏览 3
提问于2012-07-01
得票数 0
回答已采纳
1
回答
除了后端和API之外,还能用于其他进程吗?
、
、
谷歌应用引擎可以用来运行网络
爬虫
吗?由于google应用引擎用于后端和app,我担心在应用程序引擎上部署这样的
爬虫
系统会有其局限性。
浏览 0
提问于2018-04-05
得票数 0
回答已采纳
1
回答
分布式系统中的任务分配
、
我的
爬虫
使用卡夫卡把爬行的网站对象的一个主题和水槽将重定向输出到Solr。有多个
爬虫
产生数据卡夫卡。 我的问题是:当一个
爬虫
想要爬一个网站,其他
爬虫
不应该尝试爬行它。如何在分布式环境中与它们通信?
浏览 0
提问于2017-06-01
得票数 2
4
回答
PHP警告: exec()无法分叉
、
我有
爬虫
脚本,运行从每个网站抓取产品。由于每个网站是不同的,每个
爬虫
脚本必须定制,以抓取特定的零售商网站。所以基本上每个零售商我有一个
爬虫
。在这个时候,我有21个
爬虫
不断运行,以收集和更新这些网站的产品。每个
爬虫
都是一个php文件,一旦完成了php脚本,它就会检查,以确保它是唯一运行的
实例
,并且在脚本的最末端,它使用exec再次启动自己,而原始
实例
关闭。不过,最近我将检查
爬虫
脚本,并注意到其中一个脚本不再运行,在错误日志中我发现了以下内容。,然而,因为
浏览 7
提问于2013-12-18
得票数 13
回答已采纳
1
回答
Selenium -方法quit()和close()不能正常工作
、
、
、
我在一个
爬虫
项目上工作,那里有3台机器,每个机器执行10个
实例
。存在一个方法tearDown,用于在完成整个
爬虫
进程时关闭
实例
。driver.close(); }我要解决的问题是,在某些情况下,当流程完成时,来自chromedriver.exe的一些
实例
被困在任务管理器中我已经尝试过使用taskkill的接近
实例
,但在某些情况下不起作用。 对不起我的英语不好。
浏览 5
提问于2022-11-21
得票数 0
1
回答
Apache Nutch工作
实例
的最大数量
、
一个主节点可以同时运行的Apache Nutch crawler
实例
的最大数量是多少?
浏览 0
提问于2015-12-17
得票数 7
1
回答
如何将xml节点添加到symfony Crawler()
、
、
、
我没有问题将xml放入Crawler()
实例
,修改现有节点,然后将xml放入文件中。 谢谢你的回复
浏览 3
提问于2016-11-29
得票数 7
1
回答
自定义信号未被Scrapy内部API处理
、
、
、
这是我的
代码
:# custom signalsitem_transformed = object() class
浏览 2
提问于2015-06-16
得票数 1
回答已采纳
1
回答
/和index.php.如何消除这个重复的页面问题?
、
问题是,当我用
爬虫
或站点地图
爬虫
等爬行我的网站时,它会报告两个重复的链接。www.domain.com/ 如何强制告诉我的
爬虫
没有相同页面的两个
实例
?我是否使用301合并它们?一个规范?.htaccess重定向?
浏览 0
提问于2014-09-12
得票数 0
回答已采纳
2
回答
爬行时管理URL的常见方法是什么?
我正在尝试编写一个网络
爬虫
程序,但现在我想知道:存储所有urls的最佳方法是什么,这样
爬虫
就可以一起工作,但不会干扰。 将所有已找到的URL保存在由所有Queue
实例
共享的PriorityQueue如果数据库最终是一致的,我如何防止多个
爬虫
获
浏览 5
提问于2011-12-28
得票数 0
回答已采纳
1
回答
从本地主机和外部ips访问robots.txt
、
、
在收到邮件后,我们正在使我们的
实例
更安全,
代码
更清晰。当我检查这个的时候,我可以看到一个像这样的帖子,上面说谷歌
爬虫
可能导致了攻击。谁能让我确定这个附件是由于谷歌
爬虫
或不?
浏览 1
提问于2015-01-01
得票数 0
1
回答
无法在Lambda中创建AWS胶水爬行器,Lambda由Step函数触发
、
、
、
、
该查询成功运行,并在给定的S桶中生成结果 要在Lambda中创建AWS
爬虫
,下面是我在Lambda (NodeJS)中的
代码
: };}; Problem createCrawler是
浏览 2
提问于2021-08-14
得票数 1
6
回答
如何锁定对MySQL表的读/写,以便在没有其他程序读写数据库的情况下选择并插入?
、
、
、
我正在并行运行许多many
爬虫
实例
。其他并行
爬虫
在选择自己的域之前检查日志表以查看哪些域已经被爬行。我需要阻止其他
爬虫
选择刚刚被另一个
爬虫
选择但还没有日志条目的域。我对如何做到这一点的最佳猜测是,当一个
爬虫
选择一个域并在日志表中插入一行(两个查询)时,锁定来自所有其他读/写的数据库。这段
代码
似乎是一个很好的解决方案(但是,请参阅下面的错误): INSERT
浏览 10
提问于2011-07-08
得票数 38
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python爬虫实例
Python 爬虫:Beautiful Soup 实例(一)
Python微博移动端爬虫实例
Python爬虫实例之——小说下载
python网络爬虫入门实例:中国大学排名定向爬虫
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
实时音视频
活动推荐
运营活动
广告
关闭
领券