私はコード ページを調査している最中であり、ウィキペディアのさまざまなエントリ間でさえ、多くの矛盾する用語の使用に遭遇しました。キャラクターの取り扱いプロセス全体を最初から最後まで詳しく説明している情報源が見つかりません。この分野に精通した誰かが、次の情報が不正確または間違っている方法を提案できますか?
私が理解している限りのキャラクター表現のプロセス:
特定のプラットフォームに関連付けられていない一連のシンボル (ここでの正しい用語は不明、おそらく「スクリプト」) から始めます。「キリル文字」は、たとえば、Windows のコンテキストでは Linux と同じエンティティを指すと理解されています。
これらのセットのメンバーは、プラットフォーム固有の文字セットを形成するためにベンダーによって一般的にまとめて選択されます。プラットフォームは、Windows の GDI 値などのさまざまなコードを割り当てる場合があります (例: ANSI_CHARSET の場合は 0、およびここで言及されているその他のコード: http://asa.diac24.net/wiki/index.php?title=ASS:fe&printable=yes ) . これらの文字セットが実際にコード化された文字セットなのか、それとも単純に順序付けられていない抽象的なものなのかなど、これらのセットに関する多くの情報を見つけることができません。
これらのセットから、GDI 値と 1 対 1 でマッピングされているように見える個々のコード ページが作成されます。これらの GDI 値はプラットフォームに依存するセットを表しているように見えるので、これは Windows コード ページが本質的に個々のセットのコード化されたバージョンであることを意味しますか?
この考えと、異なるプラットフォーム間でのこれらの GDI 文字セットとコード ページとの間の 1 対多のマッピングを示す以前に表示されたリンク (失くしてしまいました) との調整に苦労しています。これは正確ですか?これらの GDI 値は、さまざまなプラットフォームでさまざまなコード ページを開発できるセットを指していますか?
各コード ページは、抽象文字セットのメンバーを整数にマップして、セット内の位置を表します。上記の Web ページで言及されている「より単純な」コード ページの場合、これらはより正確な「文字マップ」という用語を使用して参照できます。この用語は検討する価値がありますか、それとも区別が微妙すぎて重要ではありませんか?
フォントは、そのコード ポイントのグリフが含まれている場合、そのコード ポイントをグリフに解決します。そうでない場合は、失敗を報告します。また、フォントがサポートしていないコード ポイントに対して独自の空白のグリフを返す場合があることも読みました。アプリケーションは、この空白のグリフと成功した解決を区別できますか。フォントは、この空白のグリフのようなエラー コードを返しますか?
それが私の混乱の程度だと思います。この点に関する説明は非常に貴重です。前もって感謝します。