Nutch 2.2.1 については、bin/nutch (ステップバイステップ)、bin/crawl (オールインワン) の 2 つのクロール コマンドを認識しています。
コマンドのクロール ID を指定する方法を知っていますbin/crawl
。同様に、bin/nutch
コマンドのクロール ID を指定する方法は?
私が質問している理由はall-in-one crawl command "bin/crawl"
、クロール ID を指定して大規模なクロール ジョブを実行したため、Solr で 9 回目のクロール反復のためにインデックスを作成しているときに壊れました。"bin/nutch solrindex"
ここで、中断された 9 回目の繰り返しに対して 1 つのステップ コマンドを実行して、solr のインデックス作成を完了したいだけです。bin/nutch solrindex
" " コマンドでクロール ID を指定するにはどうすればよいですか? 構文は何ですか?
すべてのクロール データを HBase テーブル "webpage_test" に保存しています。