vb.net - 「合成」文字である Unicode 文字はどれですか (その唯一の目的は、アクセントを追加することです)。

Question

これは関連しています

これは私がこれを行う予定の方法です：

KD形。

基本的に、上付き文字などのほとんどのバリエーションを通常の数字に変換します。また、チルダとアクセントを 2 文字に分解します。

次のステップは、チルダまたはアクセント文字を唯一の目的とするすべての文字を削除することです。

どのキャラクターがそのようなものかをどうやって知ることができますか? どのキャラクターが単なる「合成キャラクター」ですか

そのようなキャラクターを見つけるにはどうすればよいですか？それらを見つけた後、どうすればそれを取り除くことができますか? 文字ごとにスキャンして、そのような「組み合わせ文字」をすべて削除する必要がありますか?

例: 300 から 362 までの文字を取り除くことができます。

じゃあ何？

score 3 · Accepted Answer

結合文字は、ゼロ以外の Canonical_Combining_Class と(Mark, nonspacing)の General_Category を持つものとしてUnicodeData.txtにリストされています。Mn

score 2 · Accepted Answer

文字列内の各文字について、GetUnicodeCategory を呼び出し、 UnicodeCategoryで NonSpacingMark、SpacingCombiningMark、または EnclosingMarkをチェックします。

正規表現を使用すると、より効率的に実行できる場合がありますRegex.Replace(str, "\p{M}", "")。

2 に答える 2