随后抓取多个蜘蛛

文章/答案/技术大牛

发布

2回答

、

我想在蜘蛛关闭时重新启动它。

浏览 17提问于2016-07-29得票数 2

1回答

在包含"sometext“的网页中获取链接的xpath

、、

我不希望我的xpath被硬编码，因为我将爬行多个网站。我刚开始刮擦，我已经找了好几天了，什么也找不到

浏览 2提问于2016-01-16得票数 0

回答已采纳

1回答

所有这些网站爬行都可以使用相同的蜘蛛，因为我不需要从它的正文页面中提取项目。我认为的方法是将要在蜘蛛文件中爬行的域参数化，并调用scrapy爬行命令，传递域并启动urls作为参数，这样我就可以避免为每个站点生成一个蜘蛛(站点列表将随着时间的推移而增加)。如果是的话，如果我用不同的参数调度同一个蜘蛛几次，那么是否存在并发问题？如果这不是最好的方法，最好是每个站点创建一个蜘蛛.我将不得不经常更新这个项目。项目更新会影响运行中的蜘蛛吗？

浏览 2提问于2014-07-01得票数 4

回答已采纳

1回答

如何修复错误: Spider错误处理获取url

、、、、

我正在抓取电子商务网站，并抓取了多个类别，但其中一些产生的结果，但一些链接得到错误:蜘蛛错误处理…请告诉我如何排序。

浏览 0提问于2019-04-19得票数 0

1回答

在同一个Ec2实例上运行Splash服务器和Scrapy蜘蛛

、、、

我正在部署一个由蜘蛛组成的web抓取应用程序，它可以从网站中抓取内容，也可以使用 javascript呈现服务来截图网页。我希望将整个应用程序部署到一个Ec2实例中。但是，为了使应用程序工作，我必须在运行蜘蛛的同时，从码头映像运行一个启动服务器。如何在Ec2实例上运行多个进程？如能就最佳做法提出任何建议，将不胜感激。

浏览 0提问于2018-04-26得票数 1

回答已采纳

1回答

共享访问访问的urls在多个蜘蛛之间的刮刮？

、、、

我正在使用scrapyd运行多个蜘蛛作为作业跨越同一领域。我以为scrapy有一个访问urls的哈希表，当它爬行时，它与其他蜘蛛共享和协调。当我创建同一蜘蛛的实例时 curl http://localhost:6800/schedule.json -d project=projectname -d spider=spidername.它只是爬行相同的urls，重复的数据正在被抓取。以前有人处理过类似的问题吗？

浏览 0提问于2014-04-13得票数 0

回答已采纳

3回答

满是抓痕的大爬行

、、、

我正在尝试建立一个广泛的抓取与scrapy，如何可以运行多个并发蜘蛛，但同时防止他们爬行同一领域？

浏览 5提问于2016-05-16得票数 1

2回答

用scrapy进行CPU密集型解析

、、、

应该在蜘蛛的解析方法本身中执行这些操作，还是应该发送包含整个响应的项，并让自定义管道类通过解析响应体来填充项的字段？

浏览 4提问于2014-02-13得票数 2

回答已采纳

1回答

抓取爬行蜘蛛多个查询

、、、、

我试图查找电子邮件in，我有一个列表，我想一个接一个地传递多个搜索查询，但是当我尝试使用列表显示我和缩进错误时，有人能帮我解决这个问题吗？email我想传递包含搜索_query=‘info’，‘联系人’，‘销售’，‘营销’，‘市场位置’中包含多个域的列表

浏览 9提问于2022-10-21得票数 0

1回答

在Scrapy的项目中使用多个爬行器

我想知道是否有可能在同一个项目中一起使用多个爬虫。实际上我需要两只蜘蛛。第一个收集第二个蜘蛛应该抓取的链接。他们都在同一个网站上工作，所以域名是similar.Is它可能吗？

浏览 0提问于2011-02-03得票数 10

回答已采纳

1回答

尖叫的青蛙爬行，图片，JS和CSS文件

、、、

当我插入我的网站URL在自由版本的尖叫青蛙，它也列出图片，CSS和JS文件。应该是这样的吗？

浏览 0提问于2020-02-26得票数 1

回答已采纳

10回答

如何在一个Scrapy项目中为不同的爬行器使用不同的管道

、、

我有一个包含多个蜘蛛的抓取项目。有没有什么方法可以定义哪个管道用于哪个爬虫？并不是我定义的所有管道都适用于每个爬行器。谢谢

浏览 3提问于2011-12-04得票数 96

回答已采纳

1回答

如何使start_url从消息队列中删除？

、

我正在构建一个刮刮的项目，在其中我有多个蜘蛛(每个域一只蜘蛛)。现在，要抓取的urls动态地来自给定查询的用户。因此，基本上我不需要做广泛的爬行，甚至跟随链接。我查过了现在，每个url都有相同的东西要为每个网站进行抓取。所以我在每只蜘蛛</e

浏览 2提问于2014-09-22得票数 6

回答已采纳

1回答

web爬虫如何构建URL目录以抓取所需内容

、、、

我在试着了解网络爬行是如何工作的。有三个问题：

浏览 2提问于2018-10-11得票数 1

2回答

在刮伤蜘蛛中使用线程

、

在刮伤蜘蛛中可以使用多个线程吗？例如，假设我已经构建了一个爬行器，它可以抓取博客主题并保存其中的所有消息。我想将每个主题从一个池中耦合到一个线程中，然后这个线程将抓取所有所需的信息。

浏览 5提问于2015-04-06得票数 3

回答已采纳

1回答

在抓取蜘蛛中运行多个蜘蛛-找不到

、

正如标题所示，我试图在刮痕中使用多个蜘蛛。一个蜘蛛，news_spider使用以下命令工作scrapy crawl quotes_spider -o quotes.json 我收到以下消息：“蜘蛛未找到: quotes_spider然后，我将其复制为news_spider并进行编辑，然后将移出蜘蛛目录。现在我已经让n

浏览 1提问于2020-10-22得票数 0

回答已采纳

1回答

抓取错蜘蛛

、

在中，OP说 " name :定义此蜘蛛名称的字符串。蜘蛛名称是由Scrapy定位(并实例化)蜘蛛的方式，所以它必须是唯一的。但是，没有什么可以阻止您实例化同一蜘蛛</em

浏览 3提问于2017-03-02得票数 0

回答已采纳

1回答

抓取蜘蛛提取正确的url，但忽略url参数。

、、

我有一个抓取爬行器，它使用这样的规则使用SgmlLinkExtractor从图像地图中提取链接，提前谢谢。

浏览 3提问于2012-07-26得票数 0

1回答

如何在scrapy中不同时间抓取多个网站

、、

我有多个网站存储在数据库中不同的抓取时间，如每5/10分钟为每个网站。我已经创建了爬行和运行与cron的蜘蛛。它将从数据库中获取所有网站，并对所有网站进行并行爬行。如何实现以不同的时间抓取存储在数据库中的每个网站？有没有办法用scrapy处理这个问题？

浏览 2提问于2018-09-19得票数 3

1回答

带有多个蜘蛛的刮擦项目--忽略自定义设置

、

场景：执行时(即抓取.)正在执行的蜘蛛的自定义设置正在被同一项目中的另一个蜘蛛的自定义设置所覆盖。我在过去设置过多个蜘蛛的刮擦项目，没有问题。不知道为什么我现在有问题了？

浏览 1提问于2016-02-21得票数 1

点击加载更多