apache - スレッド「メイン」での例外 java.io.IOException: ジョブが失敗しました! Nutch 1.7 で

Question

Solr と Nutch は既にローカルで (別々のディレクトリに) セットアップされており、URL をクロールしてインデックスを作成し、そのインデックスを Solr に統合したいと考えています。

端末でこのクロールを実行する:

                $ bin/nutch crawl urls -solr http://localhost:8983/solr/ -depth 3 -topN 5

コマンドラインで次のエラーを報告します。

                Exception in thread "main" java.io.IOException: Job failed!
                        at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1357)
                        at org.apache.nutch.indexer.IndexingJob.index(IndexingJob.java:123)
                        at org.apache.nutch.indexer.IndexingJob.index(IndexingJob.java:81)
                        at org.apache.nutch.indexer.IndexingJob.index(IndexingJob.java:65)
                        at org.apache.nutch.crawl.Crawl.run(Crawl.java:155)
                        at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)
                        at org.apache.nutch.crawl.Crawl.main(Crawl.java:55)

そうは言っても、統合しようとして、次のコマンドを実行します。

                $ bin/nutch solrindex http://localhost:8983/solr/ crawl/crawldb -linkdb crawl/linkdb crawl/segments/*

コマンドラインでこのエラーを報告します：

                2013-10-23 13:23:38.347 java[15444:1203] Unable to load realm info from SCDynamicStore
                Indexer: java.io.IOException: Job failed!
                        at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1357)
                        at org.apache.nutch.indexer.IndexingJob.index(IndexingJob.java:123)
                        at org.apache.nutch.indexer.IndexingJob.run(IndexingJob.java:185)
                        at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)
                        at org.apache.nutch.indexer.IndexingJob.main(IndexingJob.java:195)

私の環境とアプリのバージョンは次のとおりです。

ナット 1.7
ソル4.5
MAC OSX (10.8.5)
Java バージョン「1.6.0_51」

提案をいただければ幸いです。

score 0 · Accepted Answer

同じ問題がありました。コマンドにコアを含めることで問題を解決しました

コアネームを見つける

1a. http://localhost:8983/solrに移動します

1b. 左側のナビゲーションに、「Core Selector」というタイトルのプルダウンメニューがあり、メニューをクリックして、Solr コアのリストを表示します。

1c。コア名を書き留めます。(例: コレクション1)
コマンドにコア名を入れます

2a. $ bin/nutch solrindex http://localhost:8983/solr/ collection1クロール/crawldb -linkdbクロール/linkdbクロール/セグメント/*

score 0 · Accepted Answer

0

Mrkreyes さん、あなたの問題に対する答えはありますか?

于 2015-03-18T11:30:36.523 に答える

apache - スレッド「メイン」での例外 java.io.IOException: ジョブが失敗しました! Nutch 1.7 で

2 に答える 2

Related

Reference