これは関連しています
UTF8 Unicodeの照合で同一文字としてカウントされる文字は何ですか? また、それらをマージするために使用できる VB.net 関数は何ですか?
これは私がこれを行う予定の方法です:
http://msdn.microsoft.com/en-us/library/dd374126%28v=vs.85%29.aspxを使用して文字列を
KD形。
基本的に、上付き文字などのほとんどのバリエーションを通常の数字に変換します。また、チルダとアクセントを 2 文字に分解します。
次のステップは、チルダまたはアクセント文字を唯一の目的とするすべての文字を削除することです。
どのキャラクターがそのようなものかをどうやって知ることができますか? どのキャラクターが単なる「合成キャラクター」ですか
そのようなキャラクターを見つけるにはどうすればよいですか?それらを見つけた後、どうすればそれを取り除くことができますか? 文字ごとにスキャンして、そのような「組み合わせ文字」をすべて削除する必要がありますか?
例: 300 から 362 までの文字を取り除くことができます。
じゃあ何?