HTMLページから関連するキーワードを抽出したい。
私はすでにすべてのhtmlを削除し、テキストを単語に分割し、ステマーを使用して、ストップワードリストに表示されるすべての単語をluceneから削除しました。
しかし今でも、最も一般的な単語として、基本的な動詞や代名詞がたくさんあります。
luceneやsnowballなど、「I、is、go、goed、am、it、was、we、you、us、...」のようなものをすべて除外する方法や単語のセットはありますか?
HTMLページから関連するキーワードを抽出したい。
私はすでにすべてのhtmlを削除し、テキストを単語に分割し、ステマーを使用して、ストップワードリストに表示されるすべての単語をluceneから削除しました。
しかし今でも、最も一般的な単語として、基本的な動詞や代名詞がたくさんあります。
luceneやsnowballなど、「I、is、go、goed、am、it、was、we、you、us、...」のようなものをすべて除外する方法や単語のセットはありますか?
あなたは「ストップワード」という用語を探しています。Luceneの場合、これは組み込まれており、StopWordAnalyzer.javaに追加できます(http://ankitjain.info/ankit/2009/05/27/lucene-search-ignore-word-list/を参照) 。
逆ドキュメント頻度の非常に単純なアプリケーションのようです。たとえば10,000のWebページの小さなコーパスさえあれば、各単語がドキュメントに現れる確率を計算できます。次に、単語が面白くまたは満足のいくものになり始めると思われるしきい値を選択し、そのしきい値より前の単語を除外します。
または、このリストは良さそうです。 http://www.lextek.com/manuals/onix/stopwords1.html