インクリメンタル クロールをサポートする Java で開発されたオープン ソースの Web クローラーが必要です。
Web クローラーは、簡単にカスタマイズして、solr または elasticsearch と統合する必要があります。
より多くの機能を備えてさらに発展しているアクティブなものになるはずです。
Aperture は優れたクローラーの 1 つであり、私が言及したすべての機能を備えていますが、アクティブなクローラーではなく、依存関係のライセンス (商用目的で使用する場合) のために無視しました。
Nutch - Hadoop をサポートするより多くの機能を備えた Web クローラー。しかし、私は多くのWebサイトとチュートリアルを調べましたが、適切なドキュメントはなく、WindowsでプログラムでカスタマイズするためのAPIが見つかりました. Eclipse でコードを編集できましたが、map reduce ジョブの実行中に多くのエラーが発生しました。アパーチャのように実装する Nutch 用の Java API はありません。
Crawl4j は優れた Web クローラーですが、インクリメンタル クロール機能はなく、ライセンスの問題も確認していません。
私が言及したすべての機能を備えた他のクローラーはありますか、または私の要件に対して上記のクローラーのいずれかを使用する方法はありますか?
役立つ回答をいただければ幸いです。