特定のフィルタリング条件 (含まれるテキスト、ドメインなど) のみを考慮して、Web 上で利用可能なドキュメント (HTML、.doc、.pdf など) を検索できるアプリケーションを Java で開発する必要があります。それらをすべてダウンロードしてください。
それを行う最良の方法はどれですか?これらの機能を既に提供しているようなライブラリ (Guava など) またはツールを使用する必要がありますか?
多くのライブラリ (Apache Solr、Apache Nutch など) があることは知っていますが、それらがすべてのタスクを実行できるかどうかはよくわかりません。