UTF-8 でエンコードされた Unicode 文字列が与えられた場合、これはメモリ内の単なるバイトです。
コンピュータがこれらのバイトを対応する Unicode コードポイント (数字) に変換したい場合、ある文字がどこで終わり、別の文字がどこで始まるかをどのように知ることができますか? 1 バイトで表される文字もあれば、最大 6 バイトで表される文字もあります。だからあなたが持っているなら
00111101 10111001
これは 2 文字または 1 文字を表すことができます。コンピューターはどのようにそれを正しく解釈するかを決定しますか? 現在の文字が使用するバイト数などを最初のバイトから知ることができる、ある種の規則はありますか?