ഇതുഒരുസ്ടലംമാണ്
itu oru stalam anu
これは場所であることを意味する Unicode 文字列です
import nltk
nltk.wordpunct_tokenize('ഇതുഒരുസ്ഥാലമാണ് '.decode('utf8'))
私のために働いていません。
nltk.word_tokenize('ഇതുഒരുസ്ഥാലമാണ് '.decode('utf8'))
他の例も機能していません
"കണ്ടില്ല " = കണ്ടു +ഇല്ല,
"വലിയൊരു" = വലിയ + ഒരു
右分割 :
ഇത് ഒരു സ്ഥാലം ആണ്
出力:
[u'\u0d07\u0d24\u0d4d\u0d12\u0d30\u0d41\u0d38\u0d4d\u0d25\u0d32\u0d02\u0d06\u0d23\u0d4d']
他の例に示すように、単語を分割するだけです。他の例のセクションはテスト用です。問題は Unicode にはありません。それは言語の形態学です。この目的のためには、形態素アナライザーを使用する必要があります
。この論文をご覧ください。
http://link.springer.com/chapter/10.1007%2F978-3-642-27872-3_38