python - マラヤーラム語をトークン化する方法は?

Question

ഇതുഒരുസ്ടലംമാണ്

itu oru stalam anu

これは場所であることを意味する Unicode 文字列です

import nltk
nltk.wordpunct_tokenize('ഇതുഒരുസ്ഥാലമാണ് '.decode('utf8'))

私のために働いていません。

nltk.word_tokenize('ഇതുഒരുസ്ഥാലമാണ് '.decode('utf8'))

他の例も機能していません

"കണ്ടില്ല "  = കണ്ടു +ഇല്ല,
"വലിയൊരു"  = വലിയ + ഒരു

右分割 :

ഇത്  ഒരു സ്ഥാലം ആണ്

出力：

[u'\u0d07\u0d24\u0d4d\u0d12\u0d30\u0d41\u0d38\u0d4d\u0d25\u0d32\u0d02\u0d06\u0d23\u0d4d']

他の例に示すように、単語を分割するだけです。他の例のセクションはテスト用です。問題は Unicode にはありません。それは言語の形態学です。この目的のためには、形態素アナライザーを使用する必要があります
。この論文をご覧ください。 http://link.springer.com/chapter/10.1007%2F978-3-642-27872-3_38

score 3 · Accepted Answer

おそらくビタビアルゴリズムが役立つでしょうか？

別のSOの質問（および他の高票の回答）に対するこの回答が役立つ可能性があります：https://stackoverflow.com/a/481773/583834

python - マラヤーラム語をトークン化する方法は?

6 に答える 6

Related

Reference