Unicode 標準には十分なコードポイントがあり、それらをすべて格納するには 4 バイトが必要です。それが UTF-32 エンコーディングの機能です。しかし、UTF-8 エンコーディングでは、「可変幅エンコーディング」と呼ばれるものを使用して、これらをより小さなスペースに圧縮しています。
実際、US-ASCII の最初の 127 文字を実際の ASCII とまったく同じように 1 バイトで表すことができるため、何もせずに多くの ASCII テキストを UTF-8 であるかのように解釈できます。巧妙なトリック。それで、それはどのように機能しますか?
私はここで自分の質問をして答えます. さらに、私が間違っている場合は、誰かが私を修正できるかもしれません。