この問題をより良く解決する方法を教えてください。
ロシア語のテキストがあり、形態学で最も一般的な 10 の単語を見つけたいと考えています。おそらく、 Pythonでこの問題を解決するためのオープン ソース ライブラリはありますか?
この問題をより良く解決する方法を教えてください。
ロシア語のテキストがあり、形態学で最も一般的な 10 の単語を見つけたいと考えています。おそらく、 Pythonでこの問題を解決するためのオープン ソース ライブラリはありますか?
ロシア語用の Python 形態素アナライザーの 1 つを使用して、単語を正規化できます。
https://github.com/nltk/nltkには、ロシア語用の Porter ステマーもあります。また、コマンド ラインからhttp://company.yandex.ru/technologies/mystem/を使用することもできます。
あなたのタスクにはpymorphy2をお勧めしますが、私は少し偏っています:)