我寻找一个网络爬虫解决方案,可以是足够成熟的,可以简单地扩展。我对以下特性感兴趣..。或扩展爬行器以迎接它们的可能性:
上面的这些事情可以一个一个地完成,而无需付出很大的努力,但我对提供可定制的、可扩展的爬虫的任何解决方案都感兴趣。我听说过Apache,但到目前为止对这个项目非常不确定。你有这方面的经验吗?你能推荐其他选择吗?
发布于 2010-01-18 21:24:56
在GitHub上快速搜索海葵,这是一个似乎适合您的需求的web框架--特别是可扩展性。用红宝石写的。
希望一切顺利!
发布于 2010-01-31 15:47:44
当我为我的Krugle创业公司构建开源项目索引时,我已经广泛地使用了Nutch。这是很难定制,作为一个相当单一的设计。有一个插件架构,但插件和系统之间的交互是棘手和脆弱的。
由于这种经历,并且需要更多的灵活性,我开始了Bixo项目--一个web挖掘工具包。http://openbixo.org。
它是否适合您取决于以下因素的权重:
发布于 2010-01-18 10:32:27
我衷心推荐母线。它非常灵活,而且我认为它是测试过的最免费的开放源码爬虫,因为它是互联网档案馆使用的。
https://stackoverflow.com/questions/2085213
复制相似问题