腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
当列表中的URL较多时,Import.io大容量提取速度会变慢
、
我已经设置了一个Import.io批量提取,可以很好地处理50个URL。它几乎可以在几秒钟内快速浏览所有这些内容。然而,当我尝试提取40,000个URL时,对于前1000个URL,提取器启动得非常快,然后逐渐变慢,每增加一个URL。到了5000年,每个URL大概需要4-5秒。有没有人经历过这种情况,如果有,他们有没有更优雅的解决方案?
浏览 0
提问于2015-07-14
得票数 4
1
回答
sharepoint 2007搜索
爬
网
最近我添加了一个新的网站
页面
,但它没有出现在搜索结果中。我也在爬虫日志中查找了它,但我没有找到
页面
的url。新信息当我切换到windows身份验证时,一切都很好,
页面
是在搜索process.but中找到的,切换回表单身份验证不会使网页出现在搜索结果中。 我的问题是:如何让新
页面
出现在搜索结果中?
浏览 1
提问于2013-01-31
得票数 0
1
回答
如何在使用节点时爬行jquery站点
、
、
、
我应该
爬
但我
怎么
才能爬上这个网站。我想它是用jQuery的。有些人说你应该使用ajax。但是我将包含mongodb的数据库,所以我将使用node.
js
,如何才能做到这一点?
浏览 8
提问于2016-10-05
得票数 1
回答已采纳
1
回答
zombiejs与java应用程序的集成
、
、
、
、
在上一篇关于
爬
网问题的帖子(#!)对于单
页面
应用程序,我们决定摆脱html单元(这对于
JS
来说非常慢),并选择实现Phantom
Js
with pushstate (以获得漂亮的urls)。由于Phantom
Js
不支持pushstate,我们现在正在考虑实现僵尸
Js
(希望是最后一次修改!) 有什么实现僵尸for Java应用的小贴士吗?或者其他更适合的无头浏览器(支持that状态并拥有强大的
Js
引擎)?
浏览 1
提问于2013-11-16
得票数 1
2
回答
作为一个程序员,我应该为seo做些什么呢?
、
、
、
、
我正在致力于一个利基分类/列表类型的网站。我应该做什么,使网站上的每一页是唯一的索引搜索引擎。也许要重写一些url?哪种类型的url重写最有效?还缺什么,我还应该做些什么?
浏览 0
提问于2012-03-13
得票数 1
1
回答
SharePoint 2010 Search未搜索.log格式的文件
、
、
SharePoint 2010 Search未
爬
网日志文件格式(.log)文件类型,我向共享文档添加了一些新的日志文件(.log)。但我不能在他们里面搜索。我已在文件类型
页面
中添加了文件类型(日志),并运行了完全
爬
网,但无法搜索日志文件内容。有什么想法吗?
浏览 3
提问于2014-11-22
得票数 0
1
回答
Facebook all.
js
在IE8 -响应迟钝的脚本中有太多dom元素时就会退出。
我的
页面
上有facebook的社交模块/api。我刚开始遇到一个问题,我无法从FB中找到任何可能导致这种情况的all.
js
更新。在IE8中,如果我包含某些
页面
模块(包含大量DOM元素),那么facebook all.
js
文件就会退出,IE就会陷入泥潭,并返回一个“反应迟钝的脚本”弹出。如果我减少了
页面
上DOM元素的数量,
页面
就会很好地加载。我运行了一些
页面
启发式方法等等,它指向了all.
js
,但没有给出具体的内容。 还有人碰到这个吗?看起来F
浏览 2
提问于2013-03-12
得票数 0
1
回答
NopCommerce google爬行通过登录
页面
重定向
我有一个nopCommerce网站,机器人不能
爬
我的网站。说我的sitemap不是有效的XML,而是一个HTML
页面
--我认为Google机器人也被重定向到登录
页面
。我的规则都设置为为客户启用,如您所见,您可以访问所有
页面
而无需登录。为什么谷歌的机器人要通过登录
页面
重定向?我
怎么
才能解决这个问题?
浏览 4
提问于2022-05-31
得票数 0
1
回答
未找到搜索Wiki库
我已经在wiki库中创建了一个新
页面
。问题是,当我搜索已创建的
页面
时,它显示以下错误。如何解决这个问题? error searching
浏览 27
提问于2020-11-04
得票数 0
1
回答
如何获得Pinterest的追随者名单?
、
、
您可以在浏览器中看到如下所示的追随者列表: Pinterest正在使用Ajax加载追随者/跟随者列表,我在
页面
的HTML源代码中找不到用户名。知道
怎么
爬
吗?
浏览 1
提问于2015-02-12
得票数 1
2
回答
Nutch-Hadoop:-我们
怎么
才能只抓取url中的更新来重新抓取呢?
、
、
当
页面
要重新爬行时,我只想抓取
页面
的更新内容,而不是已经抓取的旧内容。提前谢谢。普拉亚..。
浏览 0
提问于2012-04-20
得票数 0
1
回答
怎么
爬
?
、
我将展示我的确切例子,但我认为这可能是一个问题,在一般情况下,您必须
爬
一个
页面
的url引导您到另一个
页面
。谢谢
浏览 2
提问于2013-07-18
得票数 0
1
回答
如何找到在不同的
页面
上是否实际需要包含的JavaScript文件?
、
、
、
我正在寻找一种方法来搜索站点(或顶级
页面
列表),并确定是否实际需要包含在相关
页面
上的
JS
文件,或者哪些
页面
确实需要特定的
JS
文件。 30k+文件在网页
浏览 4
提问于2013-12-10
得票数 4
1
回答
Niocchi crawler -如何在抓取过程中添加url抓取(抓取整个网站)
、
在Worker方法processResource()中,我解析我获得资源,提取此
页面
中的所有内部链接,并需要将它们添加到
爬
网中。但是我不知道该
怎么
做。
浏览 1
提问于2011-05-08
得票数 0
回答已采纳
2
回答
引导程序的小格式化问题
、
、
我正在开发的网站: //jQuery to collapse the navbar on scrollif ($(".navbar").offset$($anchor).parent().addClass('active');
浏览 6
提问于2014-11-01
得票数 0
回答已采纳
4
回答
web爬虫在对web服务器的重复请求之间等待的最佳持续时间是多少
、
是否存在一些标准的持续时间,爬虫必须在重复命中同一服务器之间等待,以避免使服务器负担过重。这个值在不同的服务器上是否也不同...如果是这样的话,如何确定呢?
浏览 0
提问于2009-04-28
得票数 7
3
回答
Sharepoint搜索不起作用
、
、
平台:服务器2008上的MOSS 2007问题:当你搜索某个东西时,它什么也找不到,也没有错误。可能的问题是什么?任何我可能错过的检查点,任何我应该检查的糟糕的配置,等等…?
浏览 0
提问于2009-07-07
得票数 4
1
回答
TYPO3爬虫程序一直在加载,直到出现内部服务器错误500
、
有时它会工作,有时我会遇到这样的问题:这使得不可能使用
爬
网程序来抓取
页面
。 提前谢谢。
浏览 6
提问于2017-08-11
得票数 0
回答已采纳
1
回答
react-snap有时仅爬行单个
页面
、
在CRA应用程序上部署react-snap几乎没有痛苦,
页面
加载速度得到了极大提升,并且不需要专门的配置。然而,我偶尔会看到部署(无论是本地的还是来自netlify的)仅爬行单个
页面
然后显示为已完成的问题。如下所示: ? 正常的结果(可能是50%的时间)意味着抓取大约50个
页面
,然后所有其他内容都成功完成。 我曾尝试将并发数限制为1,但没有任何改进。
浏览 53
提问于2019-03-03
得票数 1
回答已采纳
1
回答
使用Google Chrome扩展抓取网站
、
现在,由于要抓取的网站包含许多
页面
和链接,我正在尝试以一种扩展用户看不到主窗口打开不同链接的方式进行抓取。
浏览 14
提问于2019-08-27
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
使用Phantomjs来处理针对js渲染的页面的爬取
JS技法-页面悬浮导航
js.ipfs.io页面发布
Node.js爬取豆瓣数据
使用JS和NodeJS爬取Web内容
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券