発音区別符号を組み合わせる場合、それらは文字としてカウントされますか?なぜなら、私が知る限り、それらは整形式のUnicodeで他の文字としか組み合わせることができないからです。
Unicodeコードポイントが文字であるかどうかを判断するICU関数は、1つのコードポイントしか使用しないため、特定のコードポイントについて、それらが発音区別符号と組み合わされているかどうか、または発音区別符号であるかどうか、何と組み合わされているかを知ることはできません。次のような構造を使用して、Unicode対応の正規表現に似たものを実装しようとしています。
while(is_letter(codepoint))
codepoint
ただし、以前のコードポイントや他の照合マークと照合される発音区別符号が実際にある場合にどうなるかについては、かなり心配しています。
これは安全ですか?または、発音区別符号やその他の照合マークを明示的に見つけて無視する必要がありますか?
編集:私が本当にする必要があるのは、コードポイントではなく、文字を繰り返すことです。
この質問はXY問題の犠牲者です。私の実際の問題について質問する必要があります。