首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >抓取蜘蛛的管理框架

抓取蜘蛛的管理框架
EN

Stack Overflow用户
提问于 2021-02-10 11:55:16
回答 2查看 112关注 0票数 0

我有一个项目,在其中我已经实施了数以百计的刮除蜘蛛。现在,我遇到了以下问题:

  1. 网站不时改变它们的DOM/API所以蜘蛛停止工作或者不是所有收集到的信息。
  2. 网站变得不可用或移动到另一个域-蜘蛛停止工作。
  3. 因为蜘蛛很多,所以很难监测每只蜘蛛的状态。

是否有任何框架提供监视刮伤蜘蛛的能力?

  1. 运行蜘蛛的状态
  2. 显示蜘蛛何时停止工作等。

我研究过scrapinghub/zyte,但不确定它是否适合我们的目的,因为我们需要一些可以在本地运行的东西。

EN

回答 2

Stack Overflow用户

发布于 2021-02-11 09:11:40

剪贴网基本上就像Scrapinghub,但是您在本地运行它。如果我记得正确的话,它可以提醒你当蜘蛛用电子邮件/松弛失败的时候。由于您需要管理服务器等等,所以它对用户的友好性要比scrapinghub差一点。但总的来说,我认为当我使用它时,它是一个很好的平台。

票数 1
EN

Stack Overflow用户

发布于 2021-02-10 15:53:06

气流,气流是一个非常方便的调度和监视平台。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/66136398

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档