腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
在Java上运行网络蜘蛛
、
、
、
、
在64位Windovs 8.1上启动网络
爬虫
。尝试不连接额外的库,最终爬错了。C:\Users\I>cd c:\Users\i\Desktop\
heritrix
-1.14.4 You have to specify either a username and password for theExam
浏览 4
提问于2013-12-09
得票数 2
3
回答
哪种网络
爬虫
可以从上千个网站中提取和解析数据
我已经使用
Heritrix
2.0 crawler几个月了,但我遇到了巨大的性能、内存和稳定性问题(
Heritrix
几乎每天都会崩溃,并且没有尝试使用JVM参数来限制内存使用)。根据您在该领域的经验,您会使用哪个
爬虫
来提取和解析来自上千个来源的内容?
浏览 2
提问于2009-10-31
得票数 4
回答已采纳
2
回答
基于PHP的Web
爬虫
或基于JAVA的Web
爬虫
、
、
我对基于PHP的网络
爬虫
有些怀疑,它能像基于java线程的
爬虫
一样运行吗?我之所以问这个问题,是因为在java中,线程可以一次又一次地执行,我不认为PHP有类似线程的功能,你们能说一下,哪个网络
爬虫
更能充分利用吗?基于PHP的
爬虫
还是基于Java的
爬虫
浏览 1
提问于2010-07-27
得票数 0
回答已采纳
1
回答
使用Bixo构建垂直
爬虫
、
、
我遇到了一个开源
爬虫
Bixo。有人试过吗?你能分享一下学习的过程吗?我们是否可以轻松地构建定向
爬虫
(与Nutch/
Heritrix
相比)?谢谢Nayn
浏览 1
提问于2010-07-19
得票数 3
回答已采纳
5
回答
Googlebot是用哪种编程语言编写的(或任何其他高效的网络
爬虫
)?
、
或者,更普遍的是,高效的网络
爬虫
是用哪种语言编写的? 我见过很多Java语言,但在我看来,它不是最适合开发网络
爬虫
的语言,因为它产生了太多的开销(尝试使用
Heritrix
网络
爬虫
,它非常重)。
浏览 0
提问于2009-10-29
得票数 1
回答已采纳
4
回答
solr +
Heritrix
、
、
、
、
如何将solr与
heritrix
集成?谢谢
浏览 4
提问于2009-11-03
得票数 2
回答已采纳
1
回答
Heritrix
没有在条件注释块中找到CSS文件
、
、
问题/证据<!--[if (gt IE 8)|!(IE)]><!-->问题 我该如何克服这个问题?它是
Heritrix
bug,还是我们可以通过
爬虫
-bean声明来解决的问题?
浏览 5
提问于2015-06-18
得票数 1
回答已采纳
5
回答
有谁知道一个好的可扩展的开源网络
爬虫
?
、
爬虫
需要具有可扩展的体系结构,以允许更改内部流程,如实现新步骤(预解析器、解析器等)。但是还有其他像这样的好项目吗?
浏览 2
提问于2009-06-24
得票数 14
回答已采纳
2
回答
哪种开源
爬虫
是最好的?
、
我正在比较这四个Nutch /
Heritrix
/ OpenPipeLine / Apache Tika,哪一个最好?每一个都有什么优点和缺点?我想有一些可扩展的
爬虫
,可以抓取一个网站的列表,如果需要可以修改。
浏览 1
提问于2011-12-07
得票数 5
1
回答
Nutch与
Heritrix
的比较
、
、
我想选择上面的其中之一,为特定的网站建立一个爬行框架。这不是互联网范围内的抓取。我不是建立一个搜索索引,而是有兴趣从网站上抓取特定的页面。
浏览 1
提问于2010-07-16
得票数 2
回答已采纳
1
回答
Heritrix
单站点刮擦,包括所需的场外资产
、
、
我认为需要帮助编译
Heritrix
决定规则,尽管我愿意接受
Heritrix
的其他建议: 我需要刮一整份的网站(在
爬虫
-beans.cxml种子列表),但不刮任何外部(场外)页面。
浏览 6
提问于2015-05-26
得票数 3
回答已采纳
1
回答
solr中的apache nutch结果索引
、
、
、
、
我想用Nutch抓取网站,然后在Solr中索引结果。但是每个站点都有自己的模式,例如在一些站点中,我想在"content filed(in solr schema)“中设置"body”标签,而对于另一个站点,我想在"content filed(in solr schema)“中设置"content”。我该怎么做呢? 我是否可以在so
浏览 2
提问于2016-02-15
得票数 0
1
回答
Heritrix
DecidingScope regexp URI
、
我正在使用
HERITRIX
爬行一个名为octetfarm.com的站点。我希望
爬虫
在URI (或URL)上执行regexp,如果字符串"octetfarm“存在,
爬虫
应该接受它。2个rejectByDefault<a href="http://octetfarm.com/layer1/layer1.html">layer1<
浏览 4
提问于2014-10-01
得票数 0
2
回答
Java CSS爬行器
、
、
、
、
我正在寻找一个具有抓取网页的CSS能力的网络
爬虫
。我不需要任何其他花哨的爬行能力。 我想通过Xapian,Nutch和
Heritrix
。它们看起来都有点复杂。如果有人有任何经验或建议,我很乐意听到。
浏览 0
提问于2011-01-17
得票数 1
回答已采纳
1
回答
可以将Nutch Crawler集成到我现有的Lucene项目中吗?
、
、
、
、
所以我想,也许我只能使用Nutch的
爬虫
部分来抓取网站,并将它们索引为Lucene风格。 然后用我现有的Lucene搜索器搜索索引文件。有没有可能做到这一点,或者你有什么建议(
Heritrix
怎么样)?
浏览 6
提问于2012-04-06
得票数 0
回答已采纳
5
回答
站点覆盖率的最佳开源
爬虫
、
我对抓取很多网站很感兴趣。最重要的考虑因素是,蜘蛛能够到达尽可能多的站点。大多数爬行器所缺少的一个关键特性是执行JavaScript的能力。这是必需的,以便抓取ajax供电的网站。我真的很喜欢开源,我需要修改我的项目的代码。有人用过Solr或Lucine吗?我对Solr最大的问题是不能执行javascript,但是它有丰富的功能集和可扩展性,这两点都让Solr很有吸引力。
浏览 0
提问于2010-01-13
得票数 3
回答已采纳
2
回答
爬虫
会在这个服务器配置上工作吗?
、
、
、
、
我正在建造一个小
爬虫
作为一个业余项目。我所要做的就是爬行大约一百万页,并将它们存储在数据库中。(是的,它将不时更新,但任何特定时间的条目将仅为100万),仅仅是为了了解这些东西是如何工作的。
浏览 4
提问于2011-04-13
得票数 0
1
回答
使用
Heritrix
1.14
、
、
浏览了帖子和您建议的解决方案-- 停留在导出
HERITRIX
_HOME=/PATH/TO/BUILT/
HERITRIX
。该命令以静默方式运行,但cd $
heritrix
_home结果为 -bash: cd: /root/
heritrix
-1.14.4/bin/
heritrix
:不是目录。chmod
浏览 2
提问于2010-11-16
得票数 0
1
回答
java web
爬虫
嗨,谁能推荐一个简单的java网络
爬虫
,爬行一个网站,并返回一个链接列表的网站?不,我不需要解析器。感谢您的关注。
浏览 2
提问于2011-03-01
得票数 0
2
回答
最适合用于图像爬行的开源、可扩展
爬虫
、
我们正处于一个项目的开始阶段,我们目前想知道哪个
爬虫
是我们最好的选择。基本上,我们要建立Hadoop和抓取网络上的图像。一些特殊问题:现在这些看起来是最好的三种选择- Nutch:众所周知的规模。看起来并不是最好的选择,因为它似乎与他们的文本搜索紧密联系在一起,software.
Heritrix
:也可以伸缩。目前看来,最好的option.Scrapy:还没有大规模使用(但不确定)。我想使用它,因为它是一个p
浏览 5
提问于2009-07-28
得票数 3
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
数据采集之爬虫、反爬虫、反反爬虫
小白爬虫之爬虫快跑
发爬虫和反反爬虫
爬虫系列-初入爬虫
网络爬虫常用的几种技巧,三探爬虫,理解爬虫
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券