腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
3
回答
web
爬虫
性能
、
、
我有兴趣知道在一个非常一般的情况下(一个自制的业余网络
爬虫
)会有什么样的表现。更具体地说,一个
爬虫
程序可以处理多少个页面。当我说自制酿造在所有意义上,2.4 say核心2处理器,
java
编写,50mbit网速,等等。非常感谢, 卡洛斯
浏览 3
提问于2010-09-13
得票数 1
回答已采纳
1
回答
Nutch API建议
、
、
我正在做一个项目,我需要一个成熟的
爬虫
来做一些工作,我正在为这个目的评估Nutch。我目前的需求相对简单:我需要一个能够将数据保存到磁盘的
爬虫
程序,并且我需要它能够仅重新爬取站点的更新
资源
,并跳过已经爬取的部分。有没有人有在
Java
中直接使用Nutch代码的经验,而不是通过命令行。我想从简单开始:创建一个
爬虫
(或类似的),最低限度地配置它并启动它,没有任何花哨的东西。有没有这方面的例子,或者我应该看看的
资源
?
浏览 0
提问于2010-12-03
得票数 6
回答已采纳
4
回答
我应该同时打开多少个
Java
HttpURLConnections?
、
、
我正在编写一个多线程的
Java
网络
爬虫
。根据我对网页的理解,当用户加载网页时,浏览器请求第一个文档(例如,index.html),当它接收到超文本标记语言时,它会找到需要包括的其他
资源
(图像,CSS,JS),并同时请求这些
资源
。我的
爬虫
程序只请求原始文档。由于某些原因,我不能让它每5秒抓取超过2到5页。我正在为我制作的每一个HttpURLConnection创建一个新的线程。看起来我应该至少能够每秒抓取20-40页。
浏览 1
提问于2009-09-04
得票数 2
回答已采纳
2
回答
带有最佳可定制
爬虫
和抓取器的建议
、
、
、
我相信
爬虫
是最好的方法吗?如果我的理解是正确的,请建议您是否有任何其他方法来获取信息,而不使用来自各种来源的
爬虫
。因为这非常耗费
资源
和时间。在选择
爬虫
之前,我应该考虑哪些因素。任何提供信息和研究因素的来源在创建
爬虫
或教育
爬虫
时都需要考虑,这将是很棒的。我更喜欢用
java
编写代码,但我可以用任何
浏览 0
提问于2010-11-11
得票数 0
1
回答
如何在zapproxy扫描中删除与指定url相关的所有
资源
?
、
、
我正在使用的
java
客户端应用程序接口来自动和动态地检测许多网站的漏洞。我需要释放指定url的所有
资源
(警报、
爬虫
结果、活动扫描结果、内存使用情况),并且不干扰其他url的扫描。那么,如何在zapproxy扫描中删除指定url的
资源
呢?
浏览 17
提问于2016-06-12
得票数 0
1
回答
平面链接是如何被搜索引擎发现的?
、
我是mod_rewrite的新手。和搜索引擎优化。我想创建一个RewriteRule,它本质上转换以下请求:转到这是我使用的:正如您所看到的,我没有考虑前面的3个参数,单是id就足以显示正确的页面。 现在我想知道的是--搜索引擎怎么知道“想要的
浏览 0
提问于2011-06-26
得票数 0
回答已采纳
2
回答
如何使用asp.net mvc3和c#构建网络
爬虫
?
、
、
、
、
对于这一个,我还需要建立网络
爬虫
,其中填充搜索引擎的数据。总而言之,我需要以下内容:请任何人有任何想法或
资源
或书籍。请与我们分享。
浏览 8
提问于2012-11-14
得票数 2
1
回答
有一个流行的工具来抓取网络数据吗?
、
我正在做信息提取的工作,我需要一个工具从网页上抓取数据,windows中有流行的工具吗?
浏览 7
提问于2009-12-14
得票数 0
2
回答
基于PHP的Web
爬虫
或基于
JAVA
的Web
爬虫
、
、
我对基于PHP的网络
爬虫
有些怀疑,它能像基于
java
线程的
爬虫
一样运行吗?我之所以问这个问题,是因为在
java
中,线程可以一次又一次地执行,我不认为PHP有类似线程的功能,你们能说一下,哪个网络
爬虫
更能充分利用吗?基于PHP的
爬虫
还是基于
Java
的
爬虫
浏览 1
提问于2010-07-27
得票数 0
回答已采纳
2
回答
抓取图像、整个Web页面并缓存它们
我正在开始一个项目,想知道图像中的人物和图像所在的整个网页之间的关系。
浏览 0
提问于2010-06-16
得票数 0
3
回答
如何使
爬虫
能够访问封闭(私有)的wiki?
、
、
我需要向
爬虫
提供访问私有维基的权限。对于如何启用对单个客户端(而不是用户,因为
爬虫
无法登录到wiki)的访问,有什么建议吗?
浏览 2
提问于2011-01-27
得票数 0
回答已采纳
5
回答
有哪些好的基于Ruby的网络
爬虫
?
、
我正在考虑写我自己的,但我想知道是否有好的网络
爬虫
在那里是用Ruby编写的。 除了一个成熟的网络
爬虫
,任何可能有助于构建网络
爬虫
的gem都将是有用的。我知道这个问题的这一部分在几个地方被涉及到了,但是一个适用于构建网络
爬虫
的宝石列表也是一个很好的
资源
。
浏览 2
提问于2011-02-13
得票数 21
回答已采纳
1
回答
使用apache nutch对solr中的结构进行索引
、
、
、
、
我只是想抓取特定网站的页面,以及页面的特定部分,并将其索引到solrTy
浏览 0
提问于2016-08-02
得票数 0
1
回答
LinkedIn
爬虫
的名字是什么?
我正在寻找LinkedIn
爬虫
代理名为。我找到了Google,Facebook和Pinterest的名字,但是我找不到Linkedin的
爬虫
参考。我看过LinkedIn的开发者网站,但找不到任何参考。在谷歌上,搜索结果充斥着从LinkedIn抓取内容的
资源
。
浏览 0
提问于2018-05-02
得票数 0
回答已采纳
1
回答
学习多线程
Java
爬虫
的良好开端
、
、
我正在用
Java
开发一个网络
爬虫
。我正在寻找一个很好的项目开发这个
爬虫
的基础上。然而,实际上有超过几百个用
Java
编写的
爬虫
程序。我要找的是一个相当简单的
爬虫
,它有: 基于最新的
Java
构建和新的functionalityGood performanceImplemented好documentationNot的多线程documentationNot
浏览 1
提问于2012-04-16
得票数 0
回答已采纳
1
回答
Apache Nutch工作实例的最大数量
、
一个主节点可以同时运行的Apache Nutch crawler实例的最大数量是多少?
浏览 0
提问于2015-12-17
得票数 7
1
回答
如何用基于Python的Crawler机器连接Django?
、
、
好日子,朋友们如果有人知道我可以参考的
资源
,你们能分享一下吗? 谢谢
浏览 2
提问于2019-10-11
得票数 0
回答已采纳
1
回答
Python-Selenium
爬虫
冻结,特别是在无头模式下(不可复制的bug)
、
、
、
、
我构建了一个
爬虫
,它获取用户输入的产品列表的产品信息。有时,
爬虫
会结冰,特别是如果产品列表很长,如果
爬虫
在无头模式下运行的话。这个bug似乎是随机的,也是不可复制的,这让我认为它是由被爬行的网站的
资源
利用引起的。 该错误发生在“正常”模式,但更多发
浏览 2
提问于2019-05-21
得票数 1
2
回答
是否有可能在不重新启动应用程序的情况下,清除/释放
资源
来重新启动某些处理?
、
我正在做一个自动工作的网络
爬虫
。在某些情况下,我想停止它,更改一些设置,然后重新开始爬行。 我担心的是
资源
问题。我可以释放我创建的对象,但我不知道
Java
使用的对象。
浏览 1
提问于2011-06-23
得票数 1
回答已采纳
1
回答
如何处理
爬虫
和过时的资产?
、
、
文件夹7adcf7ba已经不存在了,所以我认为
爬虫
以某种方式使用了缓存数据。我可以使用robots.txt吗?元标签?特殊属性?我怎么发动汽车呢?
浏览 0
提问于2017-12-04
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
IPIDEA干货|Java爬虫与Python爬虫的区别
【Java爬虫】测测面相
python爬虫系列视频资源更新
Java 爬虫遇上数据异步加载
学习分享Java爬虫伪代码
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券