私は、特定のニュースの主題に関するユーザークエリを取得し、さまざまなニュースWebサイトにアクセスして、それらのページからニュースコンテンツを抽出し、いくつかのファイル/データベースに保存できるJavaでWebクローラーを設計する必要があるプロジェクトに取り組んでいます。保存されているコンテンツ全体の概要を作成するためにこれが必要です。私はこの分野に不慣れなので、それを行う方法を経験した人からの助けを期待しています。
現在、ページを手動で取得する単一のページからニュースコンテンツを抽出するコードがありますが、それをWebクローラーに統合して別のページからコンテンツを抽出する方法がわかりません。
誰かが私のニーズに応じて使用または変更できるJavaのチュートリアルまたは実装へのいくつかの良いリンクを与えることができますか?