js 并发爬虫_webdriver js 爬虫_python 爬虫 js - 腾讯云开发者社区

、、、

我正在寻找一个客户端重定向到另一个领域的PHP。我不想做301 - 302 - 307等重定向的原因是因为我希望页面向爬虫程序发送一个200HTTP OK响应。我通常使用混淆的JavaScript在静态use主机(如S3 )上执行此操作，但是，我意识到爬虫程序可能会拾取JS，因为它是客户端。我使用的未被阻塞的JS代码示例； window.location.href = "http://yourURL.com"; 然而，爬虫很难找到PHP，所以我想做一个类似的重定向，但用的是PHP。如果有人能分享他或她的意见，这将是最好的方式。提前感谢！

浏览 0提问于2015-07-29得票数 0

1回答

如何在Scrapy中运行多个相同的爬虫？

、

我有一个url列表，例如[‘ '，'，...]。这些urls在一个域名中，我用Scrapy编写了一个爬虫程序，我需要使用相同的爬虫程序一起运行这些urls。如果我有10个urls，我想创建10个相同的进程来运行爬虫程序，以提高效率。有解决方案吗？我尝试使用CrawlerProcess来运行爬虫，但是如果urls太多，它会提醒我有太多TCP连接的错误。虽然crawler始终处于运行状态，但这种方法不利于维护。 from scrapy.crawler import CrawlerProcess from scrapy.utils.project import get_proje

浏览 0提问于2019-01-06得票数 0

1回答

使用crawler4j在类之间传输一个对象

、、

我是一个简单的网络爬虫，是使用crawler4j的构建块构建的。我试图在爬虫爬行时构建一个字典，然后在构建和解析文本时将其传递给我的主(控制器)。既然我的MyCrawler对象不是在我的主类中创建的(使用MyCrawler.class作为第一个参数)，我该怎么做呢？此外，我无法更改controller.start方法。我希望在爬虫完成后能够使用在爬虫中创建的字典。我认为最好的方法是让controller.start获取一个预定义并创建的MyCrawler对象，但我看不到这样做的方法。下面是我的代码。非常感谢您的帮助！爬虫： public class MyCrawler extends W

浏览 12提问于2016-03-09得票数 1

1回答

从单个MongoDB队列获取信息的多个工作人员

、、、、

我正在用Python构建一个web爬虫，使用MongoDB来存储一个队列，其中包含所有要爬行的URL。我将有几个独立的工人，将抓取URL。每当工作人员完成URL抓取时，它将在MongoDB集合"queue“中发出请求，以获得要爬行的新URL。我的问题是，既然会有多个爬虫，我如何确保两个爬虫器不会同时查询数据库并获得相同的URL来抓取？非常感谢你的帮助

浏览 0提问于2014-03-29得票数 0

回答已采纳

1回答

我是否正确地使用scrapy-redis来抓取大量URL？

我对分布式scrapy爬虫是个新手，但是我发现了scrapy-redis并且一直在使用它。我在一个覆盆子pi上使用它来抓取大量我推送到redis的URL。我所做的就是在Pi中创建多个SSH会话，然后运行scrapy crawl myspider让爬行器“等待”。然后我启动另一个SSH并执行redis-cli lpush "my links“。然后爬虫运行，尽管我不确定它们实际运行的并发程度。我希望这是清楚的，如果没有，请让我知道，我可以澄清。我真的只是在寻找在实现这个基本版本的scrapy-redis之后的“下一步”。编辑:我是从这个答案开始的。回答者说他用scrapy-redis

浏览 0提问于2020-07-31得票数 0

1回答

使用实体框架C#限制到数据库的连接

、、、、

我有一个Azure数据库，它仅限于60个并发连接。我的问题是，我有几个爬虫填充这个数据库，以供我们的网站使用实体框架。很快，多个爬虫就会耗尽所有的连接和错误。我尝试在连接字符串中设置最大池大小值，但这似乎没有对实际的数据库连接强制执行任何限制。我可以将DbContext封装在一个单例中，但这样我就会将整个爬虫限制在一个连接上。还有其他方法来实现这一点吗？

浏览 2提问于2016-08-03得票数 5

回答已采纳

1回答

爬行url \如何在node.js中获取动态链接

、

我正在使用js爬虫来抓取网站，现在我遇到了CNN，的那一部分(基于某种原因动态生成的urls)。事情是爬虫，不要真正接触脚本-我应该如何解决它？除了我的node.js爬虫之外，我还应该编写自己的代码吗？是否有先进的爬虫知道如何处理这种动态行为？

浏览 1提问于2016-07-23得票数 2

回答已采纳

4回答

并发web爬虫通常是将访问的URL存储在并发映射中，还是使用同步来避免两次爬行相同的页面？

、、、、

我在玩写一个简单的多线程网络爬虫。我看到很多消息来源都说网络爬虫很明显是并行的，因为你可以从不同的URL开始爬行，但我从未见过他们讨论web爬虫是如何处理他们之前见过的URL的。似乎某种类型的全球地图对于避免一遍又一遍地重新爬行同样的页面是必不可少的，但是关键部分将如何构建呢？锁能有多细粒度才能最大限度地提高性能？我只想看到一个很好的例子，它既不太密集，也不太简单化。

浏览 1提问于2017-07-30得票数 1

回答已采纳

1回答

向机器人隐藏代码

、、、、

我只是在想。有没有一种方法只对爬虫隐藏页面的特定部分？我知道我可以设置"display: none“，然后用JS将其显示给用户。在过去，它可以工作，但现在爬虫(/will )更聪明(尤其是谷歌的爬虫)，可以阅读JS。那么，有没有办法对机器人隐藏某些部件，但在未来不会对用户隐瞒？不是整页，只是部分。 PS #1:我只是在想，我没有理由这么做(现在？) PS #2:也许AJAX是可能的？但没有理由不让智能js阅读爬虫来隐藏它。谢谢大家，麦芽酒

浏览 6提问于2014-10-16得票数 0

回答已采纳

1回答

如何加快亚马逊雅典娜查询的执行速度？

、、、

我使用雅典娜查询执行从Glue表中检索数据。一个爬虫每小时更新这个表使用一个S3桶，这是不断更新的运动消防软管。我的Node.js服务器使用雅典娜执行基本查询。但是我意识到有些请求花费的时间太长，以至于服务器抛出了server请求超时。我在雅典娜中检查了查询历史，我看到了一些最新的请求的状态是排队的，这意味着它们正在等待执行。它们都有一个1到5秒的小运行时间。很明显，问题不是运行时导致的超时，而是队列。如何加快这些查询的执行速度？或者如何增加并发执行限制，以便雅典娜立即执行这些限制？

浏览 1提问于2019-11-27得票数 5

4回答

在AJAX页面上启用SEO

、、

我正在尝试在客户端动态构建站点，通过JavaScript +一个JSON内容服务器，js检索内容，然后在客户端构建页面。现在，Google不会以这种方式对内容进行索引。有解决这个问题的办法吗？比如有一个爬虫版本和一个用户版本？或者拥有某种静态归档？已经有人这么做了吗？

浏览 0提问于2009-06-11得票数 2

回答已采纳

2回答

Scrapy默认是异步的吗？

、、、

我最近在我的项目中运行了一个爬虫，但我觉得它是在等待一个页面完成后才移动到另一个页面。如果scrapy的性质是正确的，它会移动到另一个页面，直到收到前一个页面的响应。向下滚动后，我看到使用了async def，这意味着通过添加显式地使该方法成为异步方法。如果我不把async-await放在我的爬虫里，它们不会变成异步的吗？它们是否等待接收到响应？如果我有任何误解，请让我知道，并提前谢谢你。

浏览 108提问于2020-05-07得票数 2

回答已采纳

1回答

如何在node.js中发出https请求

、、

我要做个爬虫。对于http请求，我曾经这样做过。 var http=require('http'); var options={ host:'http://www.example.com', path:'/foo/example' }; callback=function(response){ var str=''; response.on('data',function(chunk){ str+=chunk; }); response.on('end', funct

浏览 2提问于2015-01-18得票数 1

回答已采纳

1回答

在性能方面，为什么facebook不一次加载所有的JS文件？

、

登录后，我查看了facebook中的html代码，他们似乎对JS文件做了很多请求(根据firebug，多达20个)。所以，虽然我知道facebook需要加载许多JS和CSS文件(而不是一个JS和一个CSS文件)，但我的问题是更通用的网站和网络爬虫的状态。我们应该担心这些技术(通过ajax加载主要内容)会影响网络爬虫(googlebot和朋友)吗？我想提高性能，加载“稍后需要”的内容(text/js/css)似乎是个好主意，但如果爬虫不能使用(当然是内容)，就不是一个好主意。谢谢!

浏览 2提问于2013-03-18得票数 3

2回答

使用websocket在烧瓶中排队

、、、、

我正在为一个项目使用Flask，Gevent和scrapy。基本的想法是，你输入一个url，它就会以输入作为参数启动一个爬虫进程。目前，它似乎可以很好地处理通过websocket传输的输出。我很好奇什么是最好的方式来处理多个爬虫同时运行，所以如果两个人在同一时间输入一个网址。我认为最好的方法是使用队列系统，理想情况下，我只希望同时运行数量可控的爬虫。有没有关于如何使用我已经在使用的库的建议？或者可能会提出一种不同的方法？

浏览 1提问于2012-12-16得票数 0

1回答

Symfony DomCrawler如何单击执行js代码的链接

、、、、

如何使用爬虫来点击执行js代码的链接，这个链接没有HREF属性。爬虫可以通过客户端在页面上执行js代码吗？我试着这样做，但不起作用 $link = $crawler->filter('#list-65544856 div[class = "DJt7 DJuf"]')->link();

浏览 82提问于2021-02-03得票数 0

1回答

这是一个搜索引擎优化错误，没有加载谷歌-搞笑js的爬虫？

、

不会为爬虫加载google-analitics js会导致问题吗？目前，我想停止加载一些外部js时，爬虫探索我的网站。对我来说，最简单的方法就是不加载google分析。这对SEO不好吗？我找不到关于这件事的多少信息。

浏览 0提问于2017-09-19得票数 1

1回答

爬虫的Jetty - capping会话/匿名

、、、

我正在寻找一种方法来限制在我的webapp (在Jetty上运行)上为爬虫和/或匿名用户创建的会话数量。我想减少应用程序上的会话数量。有多个为爬网程序创建的会话，因为它们中的许多不尊重cookies。当应用程序进入DDoS下时，这也会有所帮助。 tomcat (‘爬虫会话阀’)已经有一个解决方案了，但我需要Jetty的解决方案。你对限制不想要的会话有什么建议？谢谢，JB

浏览 0提问于2013-07-23得票数 0

回答已采纳

2回答

抓取速度加快爬行

、、

我目前正在抓取一个网站，以提取产品信息。该网站由大约2000万的产品信息组成，我需要提取其中的每一个。我需要加快爬行速度，因为我的爬虫目前每分钟只抓取几百页。这是我的爬虫示例代码。 class XYSspider(CrawlSpider): name = "XYZ" allowed_domains = ["www.xyz.info"] start_urls = ['http://www.xyz.info/'] rules = [ Rule(LinkExtractor(allow=r'\.kat$'), follow=

浏览 0提问于2015-02-08得票数 2

3回答

具有线程支持的python web爬虫

、

这些天我做了一些网络爬虫脚本，但其中一个问题是我的互联网非常慢。所以我在想，是否可以通过使用mechanize或urllib之类的方法来实现多线程的网络爬虫。如果任何人有经验，分享信息非常感谢。我在谷歌上找过了，但没有找到多少有用的信息。提前感谢

浏览 3提问于2009-12-05得票数 2

回答已采纳

2回答

如何打开需要node.js的web应用程序

、、、

我必须运行微爬虫，这是一个爬虫网络应用程序，与node.js运行。我不知道如何打开这个应用程序，我下载了node.js，当我在node.js命令行中编写install npm和install bower时，什么也没有发生。我也不知道如何在安装后启动web应用程序。请帮帮我

浏览 2提问于2014-09-28得票数 1

1回答

使用Apify Puppeteer爬行时的内存问题

、、、、

我一直在做一个Python项目，在这个项目中，用户向程序提供一个很长的URL列表(比如说100个URL)，程序将产生100个进程来执行包含爬虫代码的JavaScript代码(使用Apify.launchPuppeteer())。此外，还根据Apify Puppeteer单页面模板创建和修改了JavaScript代码。但是，同时调用100个进程的爬行代码会占用大量内存，这会导致延迟。由于Python代码等待从JavaScript代码写入的文件中读取结果，因此内存不足会极大地影响性能并在写入文件时引发错误。我想知道是否有任何方法可以优化JavaScript爬虫代码，或者是否有任何可以在两端都进

浏览 60提问于2020-04-18得票数 0

回答已采纳

1回答

运行Scrapy Spider的多个实例

我有数以千计的网址从同一个域(存储在MongoDB中)，我需要抓取使用抓取。问题是，爬虫爬行第一个URL，完成，然后拿起第二个。我怎么才能让它一次拿起多个URL，所有的URL都是独立并行爬行的呢？我总是可以多次运行命令scrapy crawl <spidername>，但我正在寻找比这更复杂的解决方案。欢迎实验想法！

浏览 2提问于2015-12-11得票数 1

1回答

使用Scrapy可以处理多少个URL？

、、、

我有一个包含许多URL的文件。我愿意从这些网址中提取链接，然后提取不同页面的标题和metas。我想知道有多少URL可以提供给Scrapy爬虫，这样我就可以得到适当的结果。我不知道Scrapy是否会对URL扫描和从URL中提取链接有任何限制。如何随机化提取的链接？ le = LinkExtractor() for link in le.extract_links(response): yield scrapy.Request(link.url, callback=self.parse_inof) 请参见上面的代码。我用它来从URL中提取链接。我怎么能做到这一点？

浏览 4提问于2017-02-10得票数 0

回答已采纳

1回答

使用Bixo构建垂直爬虫

、、

我遇到了一个开源爬虫Bixo。有人试过吗？你能分享一下学习的过程吗？我们是否可以轻松地构建定向爬虫(与Nutch/Heritrix相比)？谢谢Nayn

浏览 1提问于2010-07-19得票数 3

回答已采纳

1回答

C#爬行器移动对多线程的单线程WebClient调用

、、、、

我们目前有一个web爬虫为我们的客户端，没有能力为我们提供一个xml文件。名单正在建立，所以我需要有一个更有效的方式来抓取这些网站。爬虫的逻辑很简单： Pass in www.example.com/widgets Store the html and pass it to crawler function crawl widgets page 1 IF widgets page 1 is the end of their product list stop else go to widgets page 2 这对队列中的每个站点都是重复的。如您所见，如果Site 1有50

浏览 1提问于2014-05-23得票数 1

1回答

在nodejs/express中如何允许爬虫使用站点地图

、、

在nodejs/express中，如何允许爬虫使用站点地图？下面的代码是我的应用程序流的一部分，我应该把我的站点地图文件夹/文件放在哪里？以及如何允许爬虫？现在访问domain/sitemap/sitemap.xml节目找不到。 project/app/app.js app.js require('./RouteHandler.js')(app, express); RouteHandler.js ... var routesIndex = require('./routes/Index/Base.js'); app.use('/', rout

浏览 2提问于2015-09-06得票数 1

回答已采纳

2回答

爬行时管理URL的常见方法是什么？

我正在尝试编写一个网络爬虫程序，但现在我想知道:存储所有urls的最佳方法是什么，这样爬虫就可以一起工作，但不会干扰。示例：爬虫1找到一个包含100个URL的页面。爬虫2找到一个没有任何URL的页面。爬虫1和2共享爬虫1发现的100个URL 我的想法(两种不同的方法) 让Crawler扫描页面寻找新的URL 将所有已找到的URL保存在由所有Queue实例共享的PriorityQueue( Crawler )中一旦Queue变得太大(例如，最大大小的80% )，就将URL外包给数据库让Crawler保存Analyzer，并在之后

浏览 5提问于2011-12-28得票数 0

回答已采纳

7回答

对于我的应用程序，多少个线程会是最优的？

、

我有一个简单的Python网络爬虫。它使用SQLite来存储它的输出，也用来保存一个队列。我想让爬虫是多线程的，这样它就可以一次抓取几个页面。我想我应该创建一个线程，一次只运行类的几个实例，这样它们都可以同时运行。但问题是，我应该一次运行多少次？我是不是应该坚持到两个？我能再高一点吗？线程数量的合理限制是多少？请记住，每个线程转到一个网页，下载html，运行几次正则表达式搜索，将找到的信息存储在SQLite数据库中，然后从队列中弹出下一个url。

浏览 2提问于2009-03-08得票数 3

回答已采纳

1回答

HTTP：“差异:用户-代理”标题的单一页面反应应用程序，为机器人进行SSR？

、、、、

我有反应网络应用程序。这是一个单一的页面应用程序，所以基本上有一个“空”HTML文件和一个JS包来完成这一切。但为了提高SEO的能力，我正在为我的服务器上的机器人爬虫做SSR。我还区分了“桌面”爬虫和“移动”爬虫，并为每个爬虫提供了不同的布局。我通过用户和机器人的User-Agent字符串来区分它们。所以这些都是可能的： REGULAR USER => GETS "EMPTY" HTML + JS BUNDLE ROBOT DESKTOP => GETS RENDERED HTML WITH DESKTOP LAYOUT ROBOT MOBILE =>

浏览 0提问于2021-01-07得票数 0

回答已采纳

1回答

爬虫不读取我的javascript附加的meta标签

、、、

爬虫在我的头中没有通过脚本附加的meta标签： document.head.innerHTML = document.head.innerHTML + '<meta name="description" content="Description">' 此脚本位于head中，并附加了元素fine。我也尝试过JQuery。我想做这第一步，因为我很快就会使用JS从JSON文件中读取来添加动态数据。有没有合适的JS代码格式可以不阻止爬虫抓取我的脚本？

浏览 1提问于2020-12-15得票数 1

1回答

因为python有gil，我切换到aiohttp有什么好处呢？

、、、、

在我工作的爬虫里。它使用pycurl进行多个请求。如果我转到aiohttp，我可以期待什么样的效率提高？怀疑主义使我怀疑潜在的改进，因为python有GIL。大部分时间都是在等待请求(网络IO)，所以如果我能够以真正的并行方式处理它们，然后在它们进来时处理它们，我就可以得到一个很好的加速。有没有人经历过这些，并能提供一些见解？谢谢

浏览 3提问于2019-06-01得票数 1

回答已采纳

1回答

使用副本辅助服务器运行DSpace

在前面有负载均衡器的多台服务器上运行DSpace会有什么问题吗？我想将连接从收割机和爬虫转移到辅助服务器，以减少主服务器上的负载，而辅助服务器具有数据库的只读副本作为后端。否则，实现如何处理来自收割机和网络爬虫/机器人的通信，而不会对DSpace的用户体验和性能产生负面影响？

浏览 3提问于2022-10-07得票数 0

1回答

Googlebot执行谷歌标签管理器吗？

、、、

我想了解Googlebot (和其他爬虫)如何爬行我的网站。具体而言，它是否传递一个document.referrer，如果它维护localStorage密钥，那么我通过Google实现了一个脚本，该脚本检测这些爬虫并将数据记录到Logstash。这是我用来检测爬虫用户代理的条件(为爬虫返回true )： function() { if(navigator.userAgent.indexOf('robot de Google') < 0 && navigator.userAgent.indexOf('Googlebot') <

浏览 0提问于2018-02-09得票数 4

回答已采纳

1回答

禁用js时，在reactjs中设置动态元标记

、

我遇到了一些问题谷歌爬虫和元标签，我使用反应头盔(没有ssr)的反应ssr。反应头盔确实有效，但谷歌搜索似乎找不到我添加的标签。我知道爬虫在没有启用js的情况下运行网站，在测试时我可以看到，当js被禁用时，头盔不会呈现标签(启用时可以正常工作)。当js被禁用时，反作用头盔不会渲染标签，这可能是谷歌搜索中描述和标题错误的原因。当js被禁用时，找到一种呈现适当标记的方法可能会解决这个问题。知道怎么做吗？谢谢你的帮助。

浏览 0提问于2020-12-28得票数 0

回答已采纳

1回答

处理远程:真正的链接和搜索机器人

、、、、

我经常使用remote: true链接。在大多数情况下，响应可以是js或html，因此搜索机器人不会造成问题但有些链接纯粹是js响应，没有HTML响应(这会导致异常和错误，导致大量监控工具、电子邮件、警报等) 我如何设置链接，使搜索机器人(谷歌，冰，其他爬虫)不会尝试它？或者-是否有一种类型的响应我应该返回，以便爬虫知道不要返回到那个url？

浏览 2提问于2014-12-03得票数 2

2回答

如何从java servlet控制类(运行/停止)

、、

我有一个充当简单爬虫的类，我想在servlet中调用这个类。我的想法是从用户那里获取一个url，然后url请求将被传递给servlet，servelt将该url传递给类，类将开始爬行。我希望我的servlet只创建这个class.the的一个实例，从爬虫中检索到的数据将由类直接添加到DB中。我想要控制类的行为，比如从servlet运行/停止/停止(对于这个问题，我认为我能够创建一个简单的xml文件，它将在servlet和类之间共享，如果servlet改变，状态代码类应该对状态改变作出响应) 但我对如何控制类的行为有一些疑问，比如命令它运行/停止/停止，因为我的类不是多线程的，所以我不知道从s

浏览 3提问于2012-03-02得票数 0

回答已采纳

4回答

Java -销毁正在执行某些操作的对象

、

我看过Java中关于析构函数的帖子，了解到Java没有析构函数，但我很困惑，如果没有析构函数，我的应用程序需要做什么。我的应用程序允许用户创建一系列的网络爬虫，这些爬虫保存在一个数组列表中。每个crawler都有一个进度面板gui，显示已爬行的页面等，并允许用户暂停该爬虫。但是，用户可能还想“终止”该爬虫程序。应该注意的是，Crawler类的每个实例都有一个Scraper类的实例，而Scraper类又有一个DatabaseConnection类的实例。我需要做什么才能让用户按下"Terminate“，对于那个爬行器，它的抓取器，以及抓取器的DatabaseConnection，都被

浏览 4提问于2011-07-08得票数 0

回答已采纳

4回答

java中线程间通信

、

在Java中，相互依赖的线程是如何通信的？例如，我正在构建一个带有需要来自其他线程的数据的线程的网络爬虫。

浏览 0提问于2010-01-31得票数 31

回答已采纳

0回答

如何在Azure函数中保存HTML中的PDF

、、、

我正在开发一个应用程序，这将有一些网站的网络爬虫。应用程序将通过URL触发Azure函数，爬虫将从该URL开始工作。到目前为止，一切顺利，但是，我们必须保存一些爬虫通过该站点的证据。我们正在考虑用爬虫经过的屏幕保存一个PDF文件，但是，由于Azure函数没有GDI+，它不能与Selenium或PhantomJS一起工作。一种不同的方法是下载HTML内容并以某种方式将此HTML字符串(带有所有JS和CSS依赖项)保存到PDF文件中。我想要一些库，它可以与Azure函数一起工作，以制作一些URL (或HTML字符串)的屏幕截图，并保存为PDF。谢谢。

浏览 7提问于2018-07-16得票数 0

回答已采纳

2回答

颤振网络: SPA:开放图形:动态分配og:图像元标记

、、、、

试图创建动态og:图像标签，供爬虫捕捉适当的缩略图。我有一个JS脚本，生成适当的og:image url，但是爬虫在搜索时似乎没有运行任何JS。有更好的方法吗？目前： <head> <script> const queryString = window.location.href; const urlParams = new URLSearchParams(queryString); const uid = urlParams.get('uid') const pid = urlParams.get('pid

浏览 0提问于2020-08-11得票数 3

回答已采纳

1回答

在cronjob上优化爬虫脚本

、、、、

我在一个MySQL表中有大约6600万个域，我需要在所有域上运行爬虫，并在爬虫完成时更新行计数=1。爬虫脚本在php中，使用php爬虫库，这里是脚本。 set_time_limit(10000); try{ $strWebURL = $_POST['url']; $crawler = new MyCrawler(); $crawler->setURL($strWebURL); $crawler->addContentTy

浏览 2提问于2015-03-01得票数 1

1回答

Vue.js /Crawler无法跟踪v生成的链接

、、、

我有一个小网站，它使用Laravel和Vue.js来呈现一个列表。您可以查看它。看起来谷歌爬虫无法跟踪v-for生成的链接。 Google说：Not found: vergleichen/%7B%7B%20anbieter.slug%20%7D%7D和我认识的所有页面爬虫都无法抓取链接。我做错什么了？有解决办法吗？任何帮助都是非常感谢的♥ 更新 @Linus:您的假设是正确的，是我的刀片文件的内容，JS看起来如下： var suche = new Vue({ el: '#suchen', data: { search: ''

浏览 3提问于2016-04-16得票数 1

1回答

Scrapy:网站正在减慢我的请求

、

我用scrapy写了一个蜘蛛。每次我尝试抓取一个特定的网站时，爬虫在一开始都运行得很好。但是当我下降到500-600个请求时，蜘蛛开始爬行得非常慢。我检查了内存和cpu设置，但这不是问题所在。我很确定这个网站正在放慢我的请求。如何调整scrapy以快速一致地抓取？

浏览 2提问于2020-07-30得票数 0

1回答

React JS - Google爬虫无法抓取页面

、、、、

什么是最好的方法，我可以使一个在react JS中构建的web应用程序为谷歌爬虫的SEO目的而工作。我希望整个页面都能爬行。基本上，问题是当它在客户端呈现时，爬虫除了根div之外什么都看不到。应用程序托管在cloudfront存储桶上，并使用S3作为服务器。我读过关于Lambda@Edge的文章，但不确定它是否可以工作。帮助!

浏览 73提问于2021-07-01得票数 1

回答已采纳

2回答

调整Storm-Crawler以充分利用可用资源

、

我有一个节点完全致力于我的基于风暴爬虫的爬虫。我有20个双核CPU，130 Gb的RAM和10 Gb/s的以太网连接。我将我的拓扑简化为: CollapsingSpout -> URLPartitionerBolt -> FetcherBolt。spout正在从Elasticsearch索引读取数据(大约有50M条记录)。Elasticsearch配置30 GB内存和2个分片。我使用一个单独的worker，大约有50 GB的RAM专门用于JVM。使用不同的设置(线程总数，每个队列的线程数，最大待决spout，一些与Elasticsearch相关的设置，主要是存储桶的数量和存储桶

浏览 24提问于2017-08-15得票数 0

1回答

计算页面的视图数的最佳方法

、

实现站点上每页查看计数器的最佳方法是什么(就像Stackoverflow有问题页一样)？选项： AnalyticsCount 以编程方式从Google 中获取唯一的页面浏览次数(尽管这种方法对爬虫和机器人进行计数)，计数该页面的服务时间，并试图通过JS过滤出爬虫用户代理Ping服务器(然后过滤出来自同一个IP /用户的页面？)。

浏览 3提问于2010-12-23得票数 0

回答已采纳

1回答

从一个页面中抓取多篇文章，每篇文章都有单独的href

、

我是个新手，写了我的第一个爬虫，为类似的网站做了一个爬虫。我想要抓取标题，然后导航到每篇文章，抓取每篇文章的文本内容。我已经尝试使用规则和链接提取器，但它不能导航到下一页和提取。我得到错误:爬行器错误处理 (referer: None) 下面是我的代码 import scrapy from scrapy.spiders import Rule from scrapy.linkextractors import LinkExtractor class MedicalSpider(scrapy.Spider): name = 'medical' allowe

浏览 1提问于2019-07-09得票数 1

6回答

使用node.js服务Backbone.js应用程序的内容，搜索搜索引擎优化爬虫

、、、

要么是我的google-fu让我失望了，要么就是还没有太多的人这么做。正如您所知，Backbone.js有一个弱点--它不能为页面爬虫(比如googlebot )呈现的html提供服务，因为他们不运行JavaScript (尽管考虑到它的Google拥有自己的资源、V8引擎，以及JavaScript应用程序正在崛起这一令人警醒的事实，我预计有一天会发生这种情况)。我知道Google有一个hashbang的解决方案，但这只是一个糟糕的主意。另外，我正在使用PushState。这对我来说是一个极其重要的问题，我也希望对其他人也是如此。SEO是不可忽视的东西，因此对于许多需要或依赖的应用程序来说，不

浏览 4提问于2012-09-16得票数 19

1回答

C#爬虫程序无法加载动态内容

、、、

我正在使用Abot库来抓取网页。爬虫可以正确地请求页面，但问题是几乎所有内容都是通过knockout.js动态加载的。爬虫程序目前无法请求此内容，这导致只加载了页面的一小部分。我试着让程序等待，希望动态的请求无论如何都会被发送，但这似乎不起作用。我希望加载整个页面，但只加载页面的底部。如何才能使crawler请求所有数据？谢谢!

浏览 12提问于2019-07-09得票数 0