js页面怎么爬 - 腾讯云开发者社区

、

我已经设置了一个Import.io批量提取，可以很好地处理50个URL。它几乎可以在几秒钟内快速浏览所有这些内容。然而，当我尝试提取40,000个URL时，对于前1000个URL，提取器启动得非常快，然后逐渐变慢，每增加一个URL。到了5000年，每个URL大概需要4-5秒。有没有人经历过这种情况，如果有，他们有没有更优雅的解决方案？

浏览 0提问于2015-07-14得票数 4

1回答

sharepoint 2007搜索爬网

最近我添加了一个新的网站页面，但它没有出现在搜索结果中。我也在爬虫日志中查找了它，但我没有找到页面的url。新信息当我切换到windows身份验证时，一切都很好，页面是在搜索process.but中找到的，切换回表单身份验证不会使网页出现在搜索结果中。我的问题是:如何让新页面出现在搜索结果中？

浏览 1提问于2013-01-31得票数 0

1回答

如何在使用节点时爬行jquery站点

、、、

我应该爬但我怎么才能爬上这个网站。我想它是用jQuery的。有些人说你应该使用ajax。但是我将包含mongodb的数据库，所以我将使用node.js，如何才能做到这一点？

浏览 8提问于2016-10-05得票数 1

回答已采纳

1回答

在上一篇关于爬网问题的帖子(#!)对于单页面应用程序，我们决定摆脱html单元(这对于JS 来说非常慢)，并选择实现Phantom Js with pushstate (以获得漂亮的urls)。由于Phantom Js不支持pushstate，我们现在正在考虑实现僵尸Js (希望是最后一次修改！) 有什么实现僵尸for Java应用的小贴士吗？或者其他更适合的无头浏览器(支持that状态并拥有强大的Js引擎)？

浏览 1提问于2013-11-16得票数 1

2回答

作为一个程序员，我应该为seo做些什么呢？

、、、、

我正在致力于一个利基分类/列表类型的网站。我应该做什么，使网站上的每一页是唯一的索引搜索引擎。也许要重写一些url？哪种类型的url重写最有效？还缺什么，我还应该做些什么？

浏览 0提问于2012-03-13得票数 1

1回答

SharePoint 2010 Search未搜索.log格式的文件

、、

SharePoint 2010 Search未爬网日志文件格式(.log)文件类型，我向共享文档添加了一些新的日志文件(.log)。但我不能在他们里面搜索。我已在文件类型页面中添加了文件类型(日志)，并运行了完全爬网，但无法搜索日志文件内容。有什么想法吗？

浏览 3提问于2014-11-22得票数 0

1回答

Facebook all.js在IE8 -响应迟钝的脚本中有太多dom元素时就会退出。

我的页面上有facebook的社交模块/api。我刚开始遇到一个问题，我无法从FB中找到任何可能导致这种情况的all.js更新。在IE8中，如果我包含某些页面模块(包含大量DOM元素)，那么facebook all.js文件就会退出，IE就会陷入泥潭，并返回一个“反应迟钝的脚本”弹出。如果我减少了页面上DOM元素的数量，页面就会很好地加载。我运行了一些页面启发式方法等等，它指向了all.js，但没有给出具体的内容。还有人碰到这个吗？看起来F

浏览 2提问于2013-03-12得票数 0

1回答

NopCommerce google爬行通过登录页面重定向

我有一个nopCommerce网站，机器人不能爬我的网站。说我的sitemap不是有效的XML，而是一个HTML页面--我认为Google机器人也被重定向到登录页面。我的规则都设置为为客户启用，如您所见，您可以访问所有页面而无需登录。为什么谷歌的机器人要通过登录页面重定向？我怎么才能解决这个问题？

浏览 4提问于2022-05-31得票数 0

1回答

未找到搜索Wiki库

我已经在wiki库中创建了一个新页面。问题是，当我搜索已创建的页面时，它显示以下错误。如何解决这个问题？ error searching

浏览 27提问于2020-11-04得票数 0

1回答

如何获得Pinterest的追随者名单？

、、

您可以在浏览器中看到如下所示的追随者列表： Pinterest正在使用Ajax加载追随者/跟随者列表，我在页面的HTML源代码中找不到用户名。知道怎么爬吗？

浏览 1提问于2015-02-12得票数 1

2回答

Nutch-Hadoop:-我们怎么才能只抓取url中的更新来重新抓取呢？

、、

当页面要重新爬行时，我只想抓取页面的更新内容，而不是已经抓取的旧内容。提前谢谢。普拉亚..。

浏览 0提问于2012-04-20得票数 0

1回答

怎么爬？

、

我将展示我的确切例子，但我认为这可能是一个问题，在一般情况下，您必须爬一个页面的url引导您到另一个页面。谢谢

浏览 2提问于2013-07-18得票数 0

1回答

如何找到在不同的页面上是否实际需要包含的JavaScript文件？

、、、

我正在寻找一种方法来搜索站点(或顶级页面列表)，并确定是否实际需要包含在相关页面上的JS文件，或者哪些页面确实需要特定的JS文件。 30k+文件在网页

浏览 4提问于2013-12-10得票数 4

1回答

Niocchi crawler -如何在抓取过程中添加url抓取(抓取整个网站)

、

在Worker方法processResource()中，我解析我获得资源，提取此页面中的所有内部链接，并需要将它们添加到爬网中。但是我不知道该怎么做。

浏览 1提问于2011-05-08得票数 0

回答已采纳

2回答

引导程序的小格式化问题

、、

我正在开发的网站： //jQuery to collapse the navbar on scrollif ($(".navbar").offset$($anchor).parent().addClass('active');

浏览 6提问于2014-11-01得票数 0

回答已采纳

4回答

web爬虫在对web服务器的重复请求之间等待的最佳持续时间是多少

、

是否存在一些标准的持续时间，爬虫必须在重复命中同一服务器之间等待，以避免使服务器负担过重。这个值在不同的服务器上是否也不同...如果是这样的话，如何确定呢？

浏览 0提问于2009-04-28得票数 7

3回答

Sharepoint搜索不起作用

、、

平台:服务器2008上的MOSS 2007问题:当你搜索某个东西时，它什么也找不到，也没有错误。可能的问题是什么？任何我可能错过的检查点，任何我应该检查的糟糕的配置，等等…？

浏览 0提问于2009-07-07得票数 4

1回答

TYPO3爬虫程序一直在加载，直到出现内部服务器错误500

、

有时它会工作，有时我会遇到这样的问题：这使得不可能使用爬网程序来抓取页面。提前谢谢。

浏览 6提问于2017-08-11得票数 0

回答已采纳

1回答

react-snap有时仅爬行单个页面

、

在CRA应用程序上部署react-snap几乎没有痛苦，页面加载速度得到了极大提升，并且不需要专门的配置。然而，我偶尔会看到部署(无论是本地的还是来自netlify的)仅爬行单个页面然后显示为已完成的问题。如下所示： ? 正常的结果(可能是50%的时间)意味着抓取大约50个页面，然后所有其他内容都成功完成。我曾尝试将并发数限制为1，但没有任何改进。

浏览 53提问于2019-03-03得票数 1

回答已采纳

1回答