1

Nutch 2.2.1 については、bin/nutch (ステップバイステップ)、bin/crawl (オールインワン) の 2 つのクロール コマンドを認識しています。

コマンドのクロール ID を指定する方法を知っていますbin/crawl。同様に、bin/nutchコマンドのクロール ID を指定する方法は?

私が質問している理由はall-in-one crawl command "bin/crawl"、クロール ID を指定して大規模なクロール ジョブを実行したため、Solr で 9 回目のクロール反復のためにインデックスを作成しているときに壊れました。"bin/nutch solrindex"ここで、中断された 9 回目の繰り返しに対して 1 つのステップ コマンドを実行して、solr のインデックス作成を完了したいだけです。bin/nutch solrindex" " コマンドでクロール ID を指定するにはどうすればよいですか? 構文は何ですか?

すべてのクロール データを HBase テーブル "webpage_test" に保存しています。

4

1 に答える 1

1

bin/nutch solrindex を実行して、クロール フォルダーとセグメント フォルダーをパラメーターに渡すことができます。

Nutch はすべてのドキュメントにインデックスを付けますが、ID フィールドを使用して既に挿入されているかどうかを判断するため、重複を作成しません。

于 2013-10-25T16:13:24.620 に答える