crawler4jを使用してクローラーを実装しようとしています。次の時点まで問題なく動作しています。
- 私はそのコピーを1つだけ実行します。
- 再起動せずに連続して実行します。
クローラーを再起動すると、収集された URL は一意ではありません。これは、クローラーがルート フォルダー (中間クローラー データを格納し、引数として渡されるフォルダー) をロックするためです。クローラが再起動すると、ルート データ フォルダの内容が削除されます。
次のことは可能ですか?
- ルート データ フォルダーがロックされないようにします。(そのため、クローラーの複数のコピーを一度に実行できます。)
- ルート データ フォルダーの内容は、再起動後に削除されません。(停止後にクローラーを再開できるように。)