ウィキペディアによると:
すべてのバイト シーケンスが有効な UTF-8 であるとは限りません。UTF-8 デコーダーは、以下のために準備する必要があります。
1. the red invalid bytes in the above table 2. an unexpected continuation byte 3. a start byte not followed by enough continuation bytes 4. an Overlong Encoding as described above 5. A 4-byte sequence (starting with 0xF4) that decodes to a value greater than U+10FFFF
コードページ レイアウトに従って、0xC0 と 0xC1 は無効であり、有効な UTF-8 シーケンスで表示されてはなりません。CodePoints 0xC0 と 0xC1 について私が持っているものは次のとおりです。
Byte 2 Byte 1 Num Char
11000011 10000000 192 À
11000011 10000001 193 Á
これらのバイト シーケンスに対応する文字がありますが、存在しないはずです。私はそれを間違っていますか?