誤ってプロセスを強制終了するまで、丸一日実行されていた Nutch のクロール タスクがあります。
シードを再クロールしたくないので (時間がかかります)、既にクロールされた URL をクローラーに無視させる方法または Nutch Crawler パラメーターがあるかどうか疑問に思います。
どうもありがとう !
誤ってプロセスを強制終了するまで、丸一日実行されていた Nutch のクロール タスクがあります。
シードを再クロールしたくないので (時間がかかります)、既にクロールされた URL をクローラーに無視させる方法または Nutch Crawler パラメーターがあるかどうか疑問に思います。
どうもありがとう !
クロールを開始した後、出力ディレクトリにいくつかのセグメントが作成されている可能性があります。bin / nutchコマンドを使用-dir
し、オプションを前の実行の出力ディレクトリにポイントします。urlDir
引数として、単一のURLを使用してダミーのものを作成します(urldirにURLが含まれていない場合にエラーを回避するためだけに)。