solr - Nutch のクロールコマンド

Question

Nutch 2.2.1 については、bin/nutch (ステップバイステップ)、bin/crawl (オールインワン) の 2 つのクロールコマンドを認識しています。

コマンドのクロール ID を指定する方法を知っていますbin/crawl。同様に、bin/nutchコマンドのクロール ID を指定する方法は?

私が質問している理由はall-in-one crawl command "bin/crawl"、クロール ID を指定して大規模なクロールジョブを実行したため、Solr で 9 回目のクロール反復のためにインデックスを作成しているときに壊れました。"bin/nutch solrindex"ここで、中断された 9 回目の繰り返しに対して 1 つのステップコマンドを実行して、solr のインデックス作成を完了したいだけです。bin/nutch solrindex" " コマンドでクロール ID を指定するにはどうすればよいですか? 構文は何ですか？

すべてのクロールデータを HBase テーブル "webpage_test" に保存しています。

score 1 · Accepted Answer

bin/nutch solrindex を実行して、クロールフォルダーとセグメントフォルダーをパラメーターに渡すことができます。

Nutch はすべてのドキュメントにインデックスを付けますが、ID フィールドを使用して既に挿入されているかどうかを判断するため、重複を作成しません。

solr - Nutch のクロール コマンド

1 に答える 1

Related

Reference

solr - Nutch のクロールコマンド