ruby - ダイアクリティカルマークとUnicodeUtilsの組み合わせを処理するには?

Question

IPA 文字列にスペースを挿入しようとしています。たとえばɔ̃wɔ̃tɨ 、ɔ̃ w ɔ̃ t ɨ. 分割/結合を使用することが私の最初の考えでした:

s = ɔ̃w̃ɔtɨ
s.split('').join(' ') #=> ̃ ɔ w ̃ ɔ p t ɨ

結果を調べて分かったのは、分音記号付きの文字は実際には 2 文字としてエンコードされていることです。いくつかの調査の後、UnicodeUtils モジュールを見つけ、each_grapheme メソッドを使用しました。

UnicodeUtils.each_grapheme(s) {|g| g + ' '} #=> ɔ ̃w ̃ɔ p t ɨ

逆ブレーブマークを除いて、これはうまくいきました。コードはに変わり̑aます̑ a。UnicodeUtils.nfc正規化 ( 、 )を試みUnicodeUtils.nfdましたが、役に立ちませんでした。メソッドがこの特定の分音記号で問題を抱えている理由はわかりませんがeach_grapheme、gedit では、チルダやアクセントなどとは対照的に、breve も別の文字として扱われていることに気付きました。私の質問は次のとおりです。正規化の簡単な方法があります。つまり、とのLatin Small Letter A組み合わせCombining Inverted BreveをLatin Small Letter A With Inverted Breve?

score 0 · Accepted Answer

Rubyに関するご質問は承知しておりますが、問題はPythonとほぼ同じだと思います。簡単な解決策は、ダイアクリティカルマークの組み合わせを明示的にテストすることです:

import unicodedata
liste=[]
s = u"ɔ̃w̃ɔtɨ"
comb=False
prec=u""
for char in s:
    if unicodedata.combining(char):
        liste.append(prec+char)
        prec=""
    else:
        liste.append(prec)
        prec=char
liste.append(prec)
print " ".join(liste)
>>>>  ɔ̃  w̃  ɔ t ɨ

ruby - ダイアクリティカルマークとUnicodeUtilsの組み合わせを処理するには?

1 に答える 1

Related

Reference