4

テキストの前処理とクリーンアップ用の Java ライブラリをお勧めしてもらえますか? ライブラリは次のようなタスクを実行する必要があります。

  • すべての動詞を不定詞に変換する
  • すべての名詞を単数形に変換する
  • 役に立たない (テキストの意味で) 単語を削除する
4

2 に答える 2

3

単語を正規形に変換する (動詞を不定詞に、名詞を単数形にするなど) ことを見出し語化と呼びます。Java ベースの lemmatizer の 1 つに Standford CoreNLP があります

「役に立たない単語」には、おそらく「ストップ ワード」が必要です。標準的なリストはありませんが、含まれる単語の数 (通常は 100 ~ 1000)。以前、このリストを使用する人を知っていました。ストップ ワードを削除する場合は、一致を探すときに大文字と小文字を区別しないようにしてください。

于 2012-11-05T00:57:12.897 に答える
-2

これで必要なものがすべて揃っているかどうかはわかりませんが、mrsqg をチェックしてください。

http://code.google.com/p/mrsqg/

于 2012-11-03T16:25:32.130 に答える