0

誤ってプロセスを強制終了するまで、丸一日実行されていた Nutch のクロール タスクがあります。

シードを再クロールしたくないので (時間がかかります)、既にクロールされた URL をクローラーに無視させる方法または Nutch Crawler パラメーターがあるかどうか疑問に思います。

どうもありがとう !

4

1 に答える 1

0

クロールを開始した後、出力ディレクトリにいくつかのセグメントが作成されている可能性があります。bin / nutchコマンドを使用-dirし、オプションを前の実行の出力ディレクトリにポイントします。urlDir引数として、単一のURLを使用してダミーのものを作成します(urldirにURLが含まれていない場合にエラーを回避するためだけに)。

于 2012-04-08T03:24:43.513 に答える