search - データを Solr に送信するときに Nutch ジョブが失敗する

Question

色々と試してみましたがダメでした。Nutch/Solr の私の構成はこれに基づいています:

http://ubuntuforums.org/showthread.php?t=1532230

Nutch と Solr を稼働させたので、Solr を使用してクロールデータのインデックスを作成したいと考えています。Nutch は指定したドメインを正常にクロールしますが、そのデータを Solr に通信するコマンドを実行すると失敗します。コマンドは次のとおりです。

bin/nutch solrindex http://solr:8181/solr/ crawl/crawldb crawl/linkdb crawl/segments/*

出力は次のとおりです。

Indexer: starting at 2013-09-12 10:34:43
Indexer: deleting gone documents: false
Indexer: URL filtering: false
Indexer: URL normalizing: false
Active IndexWriters :
SOLRIndexWriter
solr.server.url : URL of the SOLR instance (mandatory)
solr.commit.size : buffer size when sending to SOLR (default 1000)
solr.mapping.file : name of the mapping file for fields (default solrindex-mapping.xml)
solr.auth : use authentication (default false)
solr.auth.username : use authentication (default false)
solr.auth : username for authentication
solr.auth.password : password for authentication


Indexer: org.apache.hadoop.mapred.InvalidInputException: Input path does not exist:             file:/usr/share/apache-nutch-1.7/crawl/linkdb/crawl_fetch
Input path does not exist: file:/usr/share/apache-nutch-1.7/crawl/linkdb/crawl_parse
Input path does not exist: file:/usr/share/apache-nutch-1.7/crawl/linkdb/parse_data
Input path does not exist: file:/usr/share/apache-nutch-1.7/crawl/linkdb/parse_text
at org.apache.hadoop.mapred.FileInputFormat.listStatus(FileInputFormat.java:197)
at org.apache.hadoop.mapred.SequenceFileInputFormat.listStatus(SequenceFileInputFormat.java:40)
at org.apache.hadoop.mapred.FileInputFormat.getSplits(FileInputFormat.java:208)
at org.apache.hadoop.mapred.JobClient.writeOldSplits(JobClient.java:1081)
at org.apache.hadoop.mapred.JobClient.writeSplits(JobClient.java:1073)
at org.apache.hadoop.mapred.JobClient.access$700(JobClient.java:179)
at org.apache.hadoop.mapred.JobClient$2.run(JobClient.java:983)
at org.apache.hadoop.mapred.JobClient$2.run(JobClient.java:936)
at java.security.AccessController.doPrivileged(Native Method)
at javax.security.auth.Subject.doAs(Subject.java:415)
at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1190)
at org.apache.hadoop.mapred.JobClient.submitJobInternal(JobClient.java:936)
at org.apache.hadoop.mapred.JobClient.submitJob(JobClient.java:910)
at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1353)
at org.apache.nutch.indexer.IndexingJob.index(IndexingJob.java:123)
at org.apache.nutch.indexer.IndexingJob.run(IndexingJob.java:185)
at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)
at org.apache.nutch.indexer.IndexingJob.main(IndexingJob.java:195)

グーグルを何度も試した後、別のコマンドも試しました：

bin/nutch solrindex http://solr:8181/solr/ crawl/crawldb -linkdb crawl/linkdb crawl/segments/*

この出力で：

Indexer: starting at 2013-09-12 10:45:51
Indexer: deleting gone documents: false
Indexer: URL filtering: false
Indexer: URL normalizing: false
Active IndexWriters :
SOLRIndexWriter
solr.server.url : URL of the SOLR instance (mandatory)
solr.commit.size : buffer size when sending to SOLR (default 1000)
solr.mapping.file : name of the mapping file for fields (default solrindex-mapping.xml)
solr.auth : use authentication (default false)
solr.auth.username : use authentication (default false)
solr.auth : username for authentication
solr.auth.password : password for authentication


Indexer: java.io.IOException: Job failed!
at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1357)
at org.apache.nutch.indexer.IndexingJob.index(IndexingJob.java:123)
at org.apache.nutch.indexer.IndexingJob.run(IndexingJob.java:185)
at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)
at org.apache.nutch.indexer.IndexingJob.main(IndexingJob.java:195)

これらのエラーを克服する方法についてのアイデアはありますか?

score 1 · Accepted Answer

新しいSolr 5.2.1とNutch 1.10で同じエラーが発生することを期待していました:

2015-07-30 20:56:23,015 警告 mapred.LocalJobRunner - job_local_0001 org.apache.solr.common.SolrException: 見つかりません

見つかりません

リクエスト: http://127.0.0.1:8983/solr/update?wt=javabin&version=2

だから私はコレクションを作成しました（またはコア、私はSOLRの専門家ではありません）：

bin/solr create -c デモ

また、Nutch インデックス作成スクリプトの URL を変更しました。

bin/nutch solrindex http://127.0.0.1:8983/solr/democrawl/crawldb -linkdbcrawl/linkdbcrawl/segments/*

質問がかなり古いことは知っていますが、誰かを助けることができるかもしれません...

score 0 · Accepted Answer

エラーの理由を明らかにした solr のログインを見ましたか。私はナッチで同じ問題を抱えていました.solrのログには「不明なフィールド 'ホスト'」というメッセージが表示されました。solr の schema.xml を変更した後、問題はなくなりました。

search - データを Solr に送信するときに Nutch ジョブが失敗する

2 に答える 2

Related

Reference