Solr と Nutch は既にローカルで (別々のディレクトリに) セットアップされており、URL をクロールしてインデックスを作成し、そのインデックスを Solr に統合したいと考えています。
端末でこのクロールを実行する:
$ bin/nutch crawl urls -solr http://localhost:8983/solr/ -depth 3 -topN 5
コマンド ラインで次のエラーを報告します。
Exception in thread "main" java.io.IOException: Job failed!
at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1357)
at org.apache.nutch.indexer.IndexingJob.index(IndexingJob.java:123)
at org.apache.nutch.indexer.IndexingJob.index(IndexingJob.java:81)
at org.apache.nutch.indexer.IndexingJob.index(IndexingJob.java:65)
at org.apache.nutch.crawl.Crawl.run(Crawl.java:155)
at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)
at org.apache.nutch.crawl.Crawl.main(Crawl.java:55)
そうは言っても、統合しようとして、次のコマンドを実行します。
$ bin/nutch solrindex http://localhost:8983/solr/ crawl/crawldb -linkdb crawl/linkdb crawl/segments/*
コマンドラインでこのエラーを報告します:
2013-10-23 13:23:38.347 java[15444:1203] Unable to load realm info from SCDynamicStore
Indexer: java.io.IOException: Job failed!
at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1357)
at org.apache.nutch.indexer.IndexingJob.index(IndexingJob.java:123)
at org.apache.nutch.indexer.IndexingJob.run(IndexingJob.java:185)
at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)
at org.apache.nutch.indexer.IndexingJob.main(IndexingJob.java:195)
私の環境とアプリのバージョンは次のとおりです。
- ナット 1.7
- ソル4.5
- MAC OSX (10.8.5)
- Java バージョン「1.6.0_51」
提案をいただければ幸いです。