java - 複数のコンピューターでcrawler4jを実行 | 異なるインスタンス | ルートフォルダのロック

Question

crawler4jを使用してクローラーを実装しようとしています。次の時点まで問題なく動作しています。

クローラーを再起動すると、収集された URL は一意ではありません。これは、クローラーがルートフォルダー (中間クローラーデータを格納し、引数として渡されるフォルダー) をロックするためです。クローラが再起動すると、ルートデータフォルダの内容が削除されます。

次のことは可能ですか?

score 0 · Accepted Answer

以下を使用して、クローラーの構成の変更を試みることができます。

crawlConfig.setResumableCrawling(true);

controller.javaクラスで。

また、このリンクをたどると、再開可能なクロールを確認できます。

java - 複数のコンピューターでcrawler4jを実行 | 異なるインスタンス | ルート フォルダのロック