Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
テキストの前処理とクリーンアップ用の Java ライブラリをお勧めしてもらえますか? ライブラリは次のようなタスクを実行する必要があります。
単語を正規形に変換する (動詞を不定詞に、名詞を単数形にするなど) ことを見出し語化と呼びます。Java ベースの lemmatizer の 1 つに Standford CoreNLP があります。
「役に立たない単語」には、おそらく「ストップ ワード」が必要です。標準的なリストはありませんが、含まれる単語の数 (通常は 100 ~ 1000)。以前、このリストを使用する人を知っていました。ストップ ワードを削除する場合は、一致を探すときに大文字と小文字を区別しないようにしてください。
これで必要なものがすべて揃っているかどうかはわかりませんが、mrsqg をチェックしてください。
http://code.google.com/p/mrsqg/