腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Nutch
1.14
-
不
抓取
页面
中
的
所有
链接
、
、
我有
nutch
1.14
工作与Solr 6.4.2
Nutch
不
爬行(通过)
所有
的网页
链接
<property> <
浏览 13
提问于2019-02-15
得票数 0
1
回答
如何使用Apache
Nutch
抓取
ajax网站?
如果我用默认配置爬行它,
Nutch
只会带来头和页脚,动态加载
的
内容就会丢失。我用
的
是
Nutch
1.14
。
浏览 0
提问于2018-06-08
得票数 0
回答已采纳
1
回答
如何在找到
的
页面
上
抓取
外部
链接
?
我使用了从他们
的
wiki安装
nutch
的
示例。我能够轻松地
抓取
从dmoz
中
拉出
的
多个
页面
。但是,有没有配置可以
抓取
它在
页面
上找到
的
外部
链接
,或者将这些外部
链接
写入下一步要
抓取
的
文件?什么是最好
的
方式来遵循一个网页上
的
链接
,索引该网页以及与
nutch
?如果我通过python执行
浏览 1
提问于2010-10-26
得票数 2
回答已采纳
2
回答
为什么
nutch
不
抓取
所有
没有英文网站
的
链接
?
、
我用
nutch
1.4
抓取
一个站点,我知道
nutch
不会
抓取
这个站点中
的
所有
链接
。我没有过滤器,也没有爬行
的
限制规则。例如,
nutch
从不
抓取
此
链接
:如果我把这个
链接
给
nutch
抓取
浏览 0
提问于2012-01-31
得票数 0
1
回答
使用apache
nutch
爬行基于身份验证
的
页面
、
、
如何使用
nutch
抓取
基于身份验证
的
页面
?我已经在
nutch
-site.xml、
nutch
-default.xml和httpclient-auth.xml
中
完成了
所有
必需
的
设置。我已经关注了下面的
链接
,。但是我
的
爬虫仍然不能
抓取
页面
。有没有什么方法可以让我使用API密钥来帮助
抓取
?
浏览 1
提问于2018-06-26
得票数 0
2
回答
Apache
Nutch
不会对整个网站进行索引,只会对子文件夹进行索引
、
、
Apache
Nutch
1.2不会索引整个网站,只会对子文件夹进行索引。我
的
索引
页面
提供了我网站大部分区域/子文件夹
的
链接
。比如东西,学生,研究...但
nutch
只在一个特定
的
文件夹
中
爬行-在这种情况下是“学生”。似乎其他目录
中
的
链接
没有被遵循。爬网-urlfilter.txt:+^启动-depth (同时使用wi
浏览 2
提问于2011-02-14
得票数 1
2
回答
Nutch
渐进式爬行
我是新来
的
纳奇,我正在做
的
POC与纳奇1.9。我只是想爬我自己
的
网站来建立一个搜索。我发现我做
的
第一次爬行只爬了一页。第二个爬行40页,第三个300页。增量减少,它总共爬行约400页。有谁知道为什么它不只是在网站
的
第一次运行
的
全部
抓取
?我使用了
nutch
教程(),并按照3.5节使用脚本运行。我也发现多次运行,它不会
抓取
整个网站无论如何- GSA为同一网站带回900多页,
nutch
带回400。杰森
浏览 4
提问于2014-11-17
得票数 0
回答已采纳
1
回答
使用
nutch
crawl,如果我为-topN和-depth使用较小
的
值,它仍然会爬行
所有
相同
的
页面
吗?
我正在运行
Nutch
1.4/Solr 4.10来索引许多站点。我
的
爬虫包括一些带有数百个
链接
的
种子
页面
。我目前运行
的
是使用这些设置,完成
抓取
需要5-7个小时。我希望"
nutch
crawl“
的
每个单独迭代花费较少
的
时间,但我需要确保
所有
页面
最终都被爬行。我是否可以减少我
的
-topN或-depth值,同
浏览 0
提问于2016-10-11
得票数 0
3
回答
使用
Nutch
重新
抓取
URL仅用于更新
的
网站
、
、
、
、
我用
Nutch
2.1
抓取
了一个URL,然后我想在
页面
更新后重新
抓取
页面
。我该怎么做呢?我如何才能知道
页面
是否已更新?
浏览 4
提问于2013-01-10
得票数 9
回答已采纳
1
回答
nutch
在表单上爬行吗?
、
、
、
我想知道
nutch
1.4是不是开箱即用。例如,如果有一个下拉列表,它会尝试从下拉列表
中
的
项目中组合
所有
可能
的
页面
吗? 谢谢
浏览 2
提问于2012-05-10
得票数 1
1
回答
Apache
Nutch
仅将文章
页面
索引到Solr
、
、
、
、
我已经设置
Nutch
1.17
抓取
几个网站。与往常一样,可以有两种类型
的
高级别网页。首先,那些分类
页面
或主页
不
包含任何特定故事
的
细节,但提供多个
页面
的
链接
和简短文本。第二,有包含完整故事详细信息
的
页面
,即文章。 现在我
的
问题是,我如何识别这是真正
的
文章
页面
,这个
页面
是一个分类
页面
。此外,我也有兴趣只索引故事
页面
浏览 4
提问于2020-08-25
得票数 0
1
回答
apache
nutch
中
的
依赖关系问题
、
、
尝试将apache
nutch
与hadoop集成。构建apache-
nutch
-1.15.job文件后,使用ant将其放在运行时文件夹
中
,并尝试运行脚本bin/crawl,但得到一些依赖错误。在提取.job文件时,可以看到其中嵌入
的
所有
必需
的
依赖项。此外,嵌入
的
依赖项版本也没有问题。at org.apache.
nutch
.net.URLNormalizers.<init>(URLNormalizers.java:146)
浏览 30
提问于2019-03-28
得票数 2
1
回答
我应该配置什么来停止
nutch
重新索引或再次获取。对于一个url,它应该只索引一次。
、
任何一个点我正确
的
文档或黑客停止
nutch
重新索引或获取相同
的
内容。对于给定
的
url,我只想
抓取
一次。
浏览 2
提问于2014-08-20
得票数 0
1
回答
如何解析和获取XML站点地图
nutch
、
、
、
当
Nutch
获取站点地图时,它不会继续获取站点地图中标签
中
的
所有
链接
。 我设置了什么配置选项来让
nutch
抓取
网站地图中提到
的
所有
链接
。
浏览 1
提问于2014-02-13
得票数 1
1
回答
什么是
Nutch
1.3
中
的
topN?
、
、
我在网站上看到,
nutch
从每个
链接
等式
中
获取
链接
到topN。我有4个
链接
,但当
nutch
抓取
我
的
链接
时,
所有
返回
的
结果都等于topN。这意味着如果我有4个
链接
,topN = 10,
nutch
从
所有
链接
中提取10个
链接
,而不是爬虫
的
每个link.end我都有10个
链接
。帮帮我
浏览 1
提问于2011-11-22
得票数 1
2
回答
使用
Nutch
如何
抓取
使用ajax
的
动态网页内容?
、
、
、
、
我使用apache
Nutch
1.10来
抓取
网页并提取
页面
中
的
内容。其中一些
链接
包含动态内容,这些内容是在调用ajax时加载
的
。
Nutch
无法
抓取
和提取ajax
的
动态内容。我该如何解决这个问题呢?
浏览 1
提问于2015-10-06
得票数 3
1
回答
用于
抓取
的
Nutch
正则表达式
、
、
我正在使用Apache
Nutch
来
抓取
网页。当我搜索特定
的
名字时,我想
抓取
网页,例如,如果我搜索比尔盖茨,我想获得该搜索结果
的
结果
链接
。我有像这样
的
网址但在爬行时,它不再显示要获取
的
url。实际上,它不会获取任何结果。 有没有
抓取
该
页面
的选项?我在regex-urlfilter.txt
中
添加了接受
所有<
浏览 1
提问于2013-05-23
得票数 0
回答已采纳
1
回答
nutch
正则表达式,如何实现爬行策略
、
我尝试在regex-urlfilter.txt文件
中
的
nutch
1.8in环境
中
建立以下爬行行为: 第一步:
抓取
seed.txt文件
中
定义
的
站点
的
起始
页面
(www.domainname.com)。第二:另外只
抓取
两个特定目录"directoryname1“
的
页面
(www.domainname.com/directoryname1/...)和"
浏览 0
提问于2014-07-11
得票数 1
1
回答
如何限制Apache
Nutch
2.3.1
抓取
故事内容而不是侧边栏
、
、
、
、
我得
抓取
一些新闻网站。我已经在Hadoop 2.7.4和Hbase集群上安装了apache
Nutch
2.3.1。我必须通过solr 6.6.1提供搜索。在
抓取
一些网站后,我观察到
Nutch
抓取
页面
中
的
所有
内容。在新闻网站
中
,有包含最新或热门新闻等内容
的
侧栏。这些侧栏内容会随着时间
的
推移而变化。有没有办法让
Nutch
抓取
主要故事内容,并避免这样
浏览 1
提问于2017-11-08
得票数 0
1
回答
通过web爬网创建数据集
、
、
我想建立一个由大约2000-3000个网页组成
的
数据集,从几个种子URL开始。我尝试使用
Nutch
爬虫,但我无法完成它(无法将获取
的
‘片段’数据转换为html
页面
)。对你使用过
的
其他爬虫或其他工具有什么建议吗?如果web
页面
包含绝对URL,这将使脱机使用数据集变得不可能,该怎么办?
浏览 2
提问于2012-01-22
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
手把手教你写网络爬虫3:开源爬虫框架对比
最佳免费网络爬虫工具(4)
在战争中,不是所有人都是战士,不有趣却欲罢不能的《吾之战争》
万人网络讲解:“沈阳SEO”浅析搜索引擎蜘蛛的工作方式
你需要知道的………
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券