linguistics - nltk ではどの単語ステマーを使用すればよいですか?

Question

私の目標は、コーパス (今のところは twitter) の感情的なコンテンツを分析することです。ちょうど今日、感情的な語幹の完全なリストを用意するのではなく、語幹を検索する方が少し意味があることに気付きました。そのため、nltk.stem を調べたところ、4 つの異なるステマーがあることがわかりました。LancasterStemmer、PorterStemmer、RegexpStemmer、RSLPStemmer、または WordNetStemmer のいずれが最適かについて、stackoverflow の言語学者に理由を付けて質問したいと思います。

score 9 · Accepted Answer

質問とは少し異なる場合がありますが、Nodebox Lingusticsライブラリにはis_emotive（）関数が含まれており、単語をチェックして、特定の感情的な単語の再帰的な下位語であるかどうかを確認します。commonsense.pyから

    ekman = ["anger", "disgust", "fear", "joy", "sadness", "surprise"]
    other = ["emotion", "feeling", "expression"]

ステマーではありませんが、チェックアウトするための興味深いアプローチです。

score 7 · Accepted Answer

RSLP はポルトガル語用です。私はあなたが英語が欲しいと思っています。正規表現では、独自の語幹表現を開発する必要があるため、それも無視できると思います。WordnetStemmer では単語の品詞を知っている必要があるため、使用するにはまず pos タグ付けを行う必要があります。私は porter ステミングアルゴリズムを使用しましたが、これはかなり優れていますが、lancaster アルゴリズムの方が新しいため、より優れている可能性があります。各ステマーから最短のステムを選択するステマーの組み合わせを使用してみてください。とにかく、肝心なのは、PorterStemmer が適切なデフォルトの選択であるということです。

linguistics - nltk ではどの単語ステマーを使用すればよいですか?

2 に答える 2

Related

Reference