9

私の目標は、コーパス (今のところは twitter) の感情的なコンテンツを分析することです。ちょうど今日、感情的な語幹の完全なリストを用意するのではなく、語幹を検索する方が少し意味があることに気付きました。そのため、nltk.stem を調べたところ、4 つの異なるステマーがあることがわかりました。LancasterStemmer、PorterStemmer、RegexpStemmer、RSLPStemmer、または WordNetStemmer のいずれが最適かについて、stackoverflow の言語学者に理由を付けて質問したいと思います。

4

2 に答える 2

9

質問とは少し異なる場合がありますが、Nodebox Lingusticsライブラリにはis_emotive()関数が含まれており、単語をチェックして、特定の感情的な単語の再帰的な下位語であるかどうかを確認します。commonsense.pyから

    ekman = ["anger", "disgust", "fear", "joy", "sadness", "surprise"]
    other = ["emotion", "feeling", "expression"]

ステマーではありませんが、チェックアウトするための興味深いアプローチです。

于 2010-01-22T08:45:25.147 に答える
7

RSLP はポルトガル語用です。私はあなたが英語が欲しいと思っています。正規表現では、独自の語幹表現を開発する必要があるため、それも無視できると思います。WordnetStemmer では単語の品詞を知っている必要があるため、使用するにはまず pos タグ付けを行う必要があります。私は porter ステミング アルゴリズムを使用しましたが、これはかなり優れていますが、lancaster アルゴリズムの方が新しいため、より優れている可能性があります。各ステマーから最短のステムを選択するステマーの組み合わせを使用してみてください。とにかく、肝心なのは、PorterStemmer が適切なデフォルトの選択であるということです。

于 2009-08-14T23:21:41.147 に答える