lucene - 一般的な英語の単語戦略を削除します

Question

HTMLページから関連するキーワードを抽出したい。

私はすでにすべてのhtmlを削除し、テキストを単語に分割し、ステマーを使用して、ストップワードリストに表示されるすべての単語をluceneから削除しました。

しかし今でも、最も一般的な単語として、基本的な動詞や代名詞がたくさんあります。

luceneやsnowballなど、「I、is、go、goed、am、it、was、we、you、us、...」のようなものをすべて除外する方法や単語のセットはありますか？

score 4 · Accepted Answer

あなたは「ストップワード」という用語を探しています。Luceneの場合、これは組み込まれており、StopWordAnalyzer.javaに追加できます（http://ankitjain.info/ankit/2009/05/27/lucene-search-ignore-word-list/を参照）。

score 2 · Accepted Answer

逆ドキュメント頻度の非常に単純なアプリケーションのようです。たとえば10,000のWebページの小さなコーパスさえあれば、各単語がドキュメントに現れる確率を計算できます。次に、単語が面白くまたは満足のいくものになり始めると思われるしきい値を選択し、そのしきい値より前の単語を除外します。

または、このリストは良さそうです。 http://www.lextek.com/manuals/onix/stopwords1.html

score 1 · Accepted Answer

Rのtmパッケージは、多くの一般的なNLPタスクにRを介したインターフェイスを提供し、Wekaへのインターフェイスを備えています。チェックする価値があるかもしれません。ドキュメントはこちら

あなたの質問をもっと簡潔に見ると、おそらくパッケージremoveStopWords()内の関数を探しているでしょう。tm

3 に答える 3