java - 予期せず強制終了された Nutch Crawl タスクを続行する方法はありますか?

Question

誤ってプロセスを強制終了するまで、丸一日実行されていた Nutch のクロールタスクがあります。

シードを再クロールしたくないので (時間がかかります)、既にクロールされた URL をクローラーに無視させる方法または Nutch Crawler パラメーターがあるかどうか疑問に思います。

どうもありがとう！

score 0 · Accepted Answer

クロールを開始した後、出力ディレクトリにいくつかのセグメントが作成されている可能性があります。bin / nutchコマンドを使用-dirし、オプションを前の実行の出力ディレクトリにポイントします。urlDir引数として、単一のURLを使用してダミーのものを作成します（urldirにURLが含まれていない場合にエラーを回避するためだけに）。

java - 予期せず強制終了された Nutch Crawl タスクを続行する方法はありますか?

1 に答える 1

Related

Reference