我已经在linux系统上安装了Nutch。当我进入'bin‘目录并运行./nutch时,它显示如下-
Usage: nutch COMMAND
where COMMAND is one of:
crawl one-step crawler for intranets (DEPRECATED - USE CRAWL SCRIPT INSTEAD)
readdb read / dump crawl db
mergedb merge crawldb-s, with optional filtering
read
我第一次安装了纳奇。安装和安装似乎相当顺利。我让它在Windows 7上运行,我为nutch安装设置了类路径。在看到下面显示的错误(缺少主类)后,我麻烦地拍摄了一段时间的设置。
C:\Users\Public\PublicApps\apache-nutch-1.12>nutch.bat crawl urls -dir crawl -depth 1 > crawl.log Error: Could not find or load main class org.apache.nutch.crawl.Crawler
最后,我搜索了nutch jar文件。我在任何地方都看不到org.ap
当我执行nutch命令来创建crawldb文件夹和内容时:
soporte@CNEOSYLAP /usr/local/apache-nutch-2.2.1/runtime/local
$ bin/nutch crawl urls -dir crawl -depth 3 -topN 5
我得到了这个错误:
InjectorJob: Using class org.apache.gora.hbase.store.HBaseStore as the Gora storage class.
Exception in thread "main" org.apache.hadoop.map
我正在使用Java openjdk版本"1.8.0_275“的Red Hat Enterprise Linux release 8.3 (Ootpa)上运行Nutch1.18。
我正在遵循这些方向:
当我进入bin/nutch fetch $s1的步骤时,每次获取都会失败。请参阅下面hadoop日志中的错误示例。使用java.lang.NumberFormatException时,它们都失败了。我可以使用curl来检查curl是否可访问以及它们是否可访问。
任何建议都将不胜感激。
at java.lang.NumberFormatException.forInputString
我正在与Hadoop、Cloudera和HBase一起使用Linux。
你能告诉我如何纠正这个错误吗?
错误:could to find or load main class org.apache.nutch.crawl.InjectorJob
以下命令给出了错误:
src/bin/nutch inject crawl/crawldb dmoz/
如果你需要任何其他信息,请找我。
我正在我的centOS虚拟机上安装nutch2.2.1,在注入种子urls(目录名)时出现错误。我使用了这个命令:
/usr/share/apache-nutch-2.1/src/bin/nutch inject root/apache-nutch-2.1/src/testresources/testcrawl urls
我得到了一个错误:
Error: Could not find or load main class org.apache.nutch.crawl.InjectorJob
类似地,对于命令
/usr/share/apache-nutch-2.1/src/bin/nutch r