python - python isalpha は Unicode 結合マークを適切に処理しませんか?

Question

奇妙なウクライナ語Кири́ллに出会いました。それを Unicode に変換し、False を返した isalpha でテストしました。調べてみると、この単語には「結合鋭アクセント」という名前の文字が含まれていることがわかりました。したがって、文字и́は、実際にはиと́ の 2 つの文字の組み合わせです。私の理解が正しければ、記号の組み合わせ (この鋭いアクセントのような) は、他の文字を変更することのみを目的としています。したがって、isalpha はこの文字列を単語として認識する必要があります。私が間違っている？正しい結果を得る方法はありますか？utf8 で問題の単語:

単語 = '\xd0\x9a\xd0\xb8\xd1\x80\xd0\xb8\xcc\x81\xd0\xbb\xd0\xbb'

score 1 · Accepted Answer

修飾文字はアルファとは見なされないため、修飾文字の文字列を置き換える必要があると思います

modifiers = "\xcc\x81|<OTHER>|<MODIFIERS>"

text_to_analyze = re.sub(modifiers,"",my_text)
print unicode(text_to_analyze,"utf8").isalpha()

python - python isalpha は Unicode 結合マークを適切に処理しませんか?

1 に答える 1

Related

Reference