首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >是否存在任何开放的、简单的可扩展的网络爬虫?

是否存在任何开放的、简单的可扩展的网络爬虫?
EN

Stack Overflow用户
提问于 2010-01-18 10:11:25
回答 4查看 2.2K关注 0票数 7

我寻找一个网络爬虫解决方案,可以是足够成熟的,可以简单地扩展。我对以下特性感兴趣..。或扩展爬行器以迎接它们的可能性:

  • 部分是为了阅读几个站点的提要
  • 浏览这些网站的内容
  • 如果这个站点有一个归档文件,我也想爬行和索引它。
  • 爬虫应该能够为我探索Web的一部分,并且它应该能够决定哪些站点符合给定的标准
  • 如果发现符合我兴趣的东西,应该能通知我
  • 爬虫不应该通过过多的请求攻击服务器,它应该是聪明的爬行。
  • 爬虫应该对异常站点和服务器具有很强的鲁棒性。

上面的这些事情可以一个一个地完成,而无需付出很大的努力,但我对提供可定制的、可扩展的爬虫的任何解决方案都感兴趣。我听说过Apache,但到目前为止对这个项目非常不确定。你有这方面的经验吗?你能推荐其他选择吗?

EN

回答 4

Stack Overflow用户

回答已采纳

发布于 2010-01-18 21:24:56

GitHub上快速搜索海葵,这是一个似乎适合您的需求的web框架--特别是可扩展性。用红宝石写的。

希望一切顺利!

票数 2
EN

Stack Overflow用户

发布于 2010-01-31 15:47:44

当我为我的Krugle创业公司构建开源项目索引时,我已经广泛地使用了Nutch。这是很难定制,作为一个相当单一的设计。有一个插件架构,但插件和系统之间的交互是棘手和脆弱的。

由于这种经历,并且需要更多的灵活性,我开始了Bixo项目--一个web挖掘工具包。http://openbixo.org

它是否适合您取决于以下因素的权重:

  1. 你需要多少灵活性(+)
  2. 它应该有多成熟(-)
  3. 是否需要缩放(+)的能力
  4. 如果你对Java/Hadoop (+)很满意
票数 4
EN

Stack Overflow用户

发布于 2010-01-18 10:32:27

我衷心推荐母线。它非常灵活,而且我认为它是测试过的最免费的开放源码爬虫,因为它是互联网档案馆使用的。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/2085213

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档