我正在使用ApacheNutch2.3,我只想从web上抓取那些在某些特定语言中的文档,假设阿拉伯语或至少是文档应该用阿拉伯语对一些字符串进行解析。
`So is there any option in crawler to do this job?`
发布于 2015-01-29 11:29:34
是的,你可以和Nutch一起做。在nutch xpath xpathfilterconf中,您可以指定一个语言字段名,并为您正在爬行的任何网站提供适当的xpath表达式。
然后,在您的XPathIndexingFilter中,您可以在语言字段上进行筛选。
或者,如果您正在爬行的站点在javascript中的任何地方都没有它们的语言,您可以为站点正文/主文本添加一个字段名,然后在索引筛选器中添加一些检查,以查看它是否包含阿拉伯文本。
https://stackoverflow.com/questions/28209584
复制相似问题