さまざまな Web ページからテキスト情報を取得し、それを 1 つのページに要約できるアプリケーションを Java で開発しています。アプリケーションは、これらの各ページから重要なポイントを抽出し、1 つのニュースとしてまとめることになっています。このアプリケーションは、Web コンテンツ マイニングの概念に基づいています。この分野の初心者として、どこから始めればよいかわかりません。 .私は、このアプリケーションを構築する最初のステップとしてノイズ除去を説明する研究論文を調べました。
したがって、ニュース Web ページが与えられた場合、最初のステップは、ハイパーリンク、広告、役に立たない画像などを除外して、ページから主要なニュースを抽出することです。私の質問は、どうすればこれを行うことができますか? Web コンテンツ マイニングを使用したこのような種類のアプリケーションの実装を説明する優れたチュートリアルを教えてください。または、少なくともそれを達成する方法のヒントを教えてください。