3

この問題をより良く解決する方法を教えてください。

ロシア語のテキストがあり、形態学で最も一般的な 10 の単語を見つけたいと考えています。おそらく、 Pythonでこの問題を解決するためのオープン ソース ライブラリはありますか?

4

2 に答える 2

4

ロシア語用の Python 形態素アナライザーの 1 つを使用して、単語を正規化できます。

https://github.com/nltk/nltkには、ロシア語用の Porter ステマーもあります。また、コマンド ラインからhttp://company.yandex.ru/technologies/mystem/を使用することもできます。

あなたのタスクにはpymorphy2をお勧めしますが、私は少し偏っています:)

于 2013-04-12T12:52:12.463 に答える
2

PyStemmerNLTKは、ここでの 2 つの明らかなライブラリです。

于 2013-04-12T12:51:48.817 に答える