私はすでにこの種の質問に対する答えをここで検索し、それらをたくさん見つけました-しかし、私はまだ問題の明白な些細なことについてこのしつこい疑問を持っています。
このテーマに関する非常に興味深い有益な記事http://www.joelonsoftware.com/articles/Unicode.htmlを読みましたが、Unicodeデータのバッファーが与えられた場合に個々のグリフを識別する方法について疑問に思いました。
私の質問は次のとおりです。
Unicode文字列(UTF-8など)を解析するにはどうすればよいですか?
バイト順序を知っているとすると、6バイトで表されるはずのグリフの先頭に遭遇するとどうなりますか?
つまり、保存方法を正しく解釈した場合です。
これはすべて、OpenGLで動作するように設計しているテキスト表示システムに関連しています。グリフデータをディスプレイリストに保存していますが、文字列の内容を一連のグリフインデックスに変換し、それをディスプレイリストインデックスにマッピングする必要があります(明らかに、グリフセット全体をグラフィックメモリに保存することは必ずしも実用的ではないためです) )。
すべての文字列をショートパンツの配列として表現する必要があるため、表示する必要があるすべてのものを考慮すると、かなりの量のストレージが必要になります。
さらに、1文字あたり2バイトでは、考えられるすべてのUnicode要素を表すのに十分ではないように思われます。