2

奇妙なウクライナ語Кири́ллに出会いました。それを Unicode に変換し、False を返した isalpha でテストしました。調べてみると、この単語には「結合鋭アクセント」という名前の文字が含まれていることがわかりました。したがって、文字и́は、実際にはиと́ の 2 つの文字の組み合わせです。 私の理解が正しければ、記号の組み合わせ (この鋭いアクセントのような) は、他の文字を変更することのみを目的としています。したがって、isalpha はこの文字列を単語として認識する必要があります。私が間違っている?正しい結果を得る方法はありますか?utf8 で問題の単語:

単語 = '\xd0\x9a\xd0\xb8\xd1\x80\xd0\xb8\xcc\x81\xd0\xbb\xd0\xbb'

4

1 に答える 1

1

修飾文字はアルファとは見なされないため、修飾文字の文字列を置き換える必要があると思います

modifiers = "\xcc\x81|<OTHER>|<MODIFIERS>"

text_to_analyze = re.sub(modifiers,"",my_text)
print unicode(text_to_analyze,"utf8").isalpha()
于 2014-02-20T22:49:43.987 に答える