首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如何限制Apache Nutch只爬行特定于语言的文档

如何限制Apache Nutch只爬行特定于语言的文档
EN

Stack Overflow用户
提问于 2015-01-29 07:57:33
回答 1查看 344关注 0票数 1

我正在使用ApacheNutch2.3,我只想从web上抓取那些在某些特定语言中的文档,假设阿拉伯语或至少是文档应该用阿拉伯语对一些字符串进行解析。

代码语言:javascript
运行
复制
`So is there any option in crawler to do this job?`
EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2015-01-29 11:29:34

是的,你可以和Nutch一起做。在nutch xpath xpathfilterconf中,您可以指定一个语言字段名,并为您正在爬行的任何网站提供适当的xpath表达式。

然后,在您的XPathIndexingFilter中,您可以在语言字段上进行筛选。

或者,如果您正在爬行的站点在javascript中的任何地方都没有它们的语言,您可以为站点正文/主文本添加一个字段名,然后在索引筛选器中添加一些检查,以查看它是否包含阿拉伯文本。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/28209584

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档