0

HTMLページから関連するキーワードを抽出したい。

私はすでにすべてのhtmlを削除し、テキストを単語に分割し、ステマーを使用して、ストップワードリストに表示されるすべての単語をluceneから削除しました。

しかし今でも、最も一般的な単語として、基本的な動詞や代名詞がたくさんあります。

luceneやsnowballなど、「I、is、go、goed、am、it、was、we、you、us、...」のようなものをすべて除外する方法や単語のセットはありますか?

4

3 に答える 3

4

あなたは「ストップワード」という用語を探しています。Luceneの場合、これは組み込まれており、StopWordAnalyzer.javaに追加できます(http://ankitjain.info/ankit/2009/05/27/lucene-search-ignore-word-list/を参照) 。

于 2011-09-23T18:23:47.067 に答える
2

逆ドキュメント頻度の非常に単純なアプリケーションのようです。たとえば10,000のWebページの小さなコーパスさえあれば、各単語がドキュメントに現れる確率を計算できます。次に、単語が面白くまたは満足のいくものになり始めると思われるしきい値を選択し、そのしきい値より前の単語を除外します。

または、このリストは良さそうです。 http://www.lextek.com/manuals/onix/stopwords1.html

于 2011-09-23T17:47:08.180 に答える
1

Rtmパッケージは、多くの一般的なNLPタスクにRを介したインターフェイスを提供し、Wekaへのインターフェイスを備えています。チェックする価値があるかもしれません。ドキュメントはこちら

あなたの質問をもっと簡潔に見ると、おそらくパッケージremoveStopWords()内の関数を探しているでしょう。tm

于 2011-09-23T17:51:04.200 に答える