17
ഇതുഒരുസ്ടലംമാണ്  

itu oru stalam anu

これは場所であることを意味する Unicode 文字列です

import nltk
nltk.wordpunct_tokenize('ഇതുഒരുസ്ഥാലമാണ് '.decode('utf8'))

私のために働いていません。

nltk.word_tokenize('ഇതുഒരുസ്ഥാലമാണ് '.decode('utf8'))

他の例も機能していません

"കണ്ടില്ല "  = കണ്ടു +ഇല്ല,
"വലിയൊരു"  = വലിയ + ഒരു

右分割 :

ഇത്  ഒരു സ്ഥാലം ആണ് 

出力:

[u'\u0d07\u0d24\u0d4d\u0d12\u0d30\u0d41\u0d38\u0d4d\u0d25\u0d32\u0d02\u0d06\u0d23\u0d4d']

他の例に示すように、単語を分割するだけです。他の例のセクションはテスト用です。問題は Unicode にはありません。それは言語の形態学です。この目的のためには、形態素アナライザーを使用する必要があります
。この論文をご覧ください。 http://link.springer.com/chapter/10.1007%2F978-3-642-27872-3_38

4

6 に答える 6

3

おそらくビタビアルゴリズムが役立つでしょうか?

別のSOの質問(および他の高票の回答)に対するこの回答が役立つ可能性があります:https://stackoverflow.com/a/481773/583834

于 2013-10-26T16:24:39.447 に答える