java - Web ページからテキストコンテンツを抽出する方法は?

Question

さまざまな Web ページからテキスト情報を取得し、それを 1 つのページに要約できるアプリケーションを Java で開発しています。アプリケーションは、これらの各ページから重要なポイントを抽出し、1 つのニュースとしてまとめることになっています。このアプリケーションは、Web コンテンツマイニングの概念に基づいています。この分野の初心者として、どこから始めればよいかわかりません。 .私は、このアプリケーションを構築する最初のステップとしてノイズ除去を説明する研究論文を調べました。

したがって、ニュース Web ページが与えられた場合、最初のステップは、ハイパーリンク、広告、役に立たない画像などを除外して、ページから主要なニュースを抽出することです。私の質問は、どうすればこれを行うことができますか? Web コンテンツマイニングを使用したこのような種類のアプリケーションの実装を説明する優れたチュートリアルを教えてください。または、少なくともそれを達成する方法のヒントを教えてください。

score 9 · Accepted Answer

このタスクには、読みやすさまたはボイラーパイプという 2 つのオープンソースツールを使用できます。チュートリアルについては、これら 2 つのプロジェクトのコードとドキュメントを読む必要があります。

java - Web ページからテキスト コンテンツを抽出する方法は?

1 に答える 1

Related

Reference

java - Web ページからテキストコンテンツを抽出する方法は?