UTF-8 文字列の単語数をカウントする必要があります。つまり、「एक बार,एक कौआ, बहुत प्यासा, था」を入力として取り、7 (単語数) を返す python 関数を作成する必要があります。
以下に示すように、正規表現「\ b」を試しました。しかし、結果は矛盾しています。
wordCntExp=re.compile(ur'\b',re.UNICODE);
sen='एक बार,एक कौआ, बहुत प्यासा, था';
print len(wordCntExp.findall(sen.decode('utf-8'))) >> 1;
12
上記の回答の解釈、または上記の問題を解決するための他のアプローチを歓迎します。