ASCII と拡張 ASCII に固有の問題とは何ですか? また、これらの問題は Unicode によってどのように克服されますか?
ユニコードの互換性について説明してもらえますか?
また、平面、基本多言語平面 (BMP)、補助多言語平面 (SMP)、補助漢字平面 (SIP)、補助特殊平面 (SSP)、私的使用平面 (PUP) などの Unicode に関連する用語は何を意味しますか。
私はこれらすべての言葉が非常に紛らわしいと感じました
ASCII と拡張 ASCII に固有の問題とは何ですか? また、これらの問題は Unicode によってどのように克服されますか?
ユニコードの互換性について説明してもらえますか?
また、平面、基本多言語平面 (BMP)、補助多言語平面 (SMP)、補助漢字平面 (SIP)、補助特殊平面 (SSP)、私的使用平面 (PUP) などの Unicode に関連する用語は何を意味しますか。
私はこれらすべての言葉が非常に紛らわしいと感じました
ASCIIは多かれ少なかれ最初の文字エンコーディングでした。1 バイトが非常に高価で、1MHz が非常に高速だった時代には、古代の米国のタイプライター(および現在の平均的な米国国際キーボード) に表示される文字だけが、ASCII 文字エンコーディングの文字セットでカバーされていました。これには、完全なラテン アルファベット (A ~ Z、小文字と大文字の両方)、数字 (0 ~ 9)、字句制御文字 (スペース、ドット、コンマ、コロンなど)、およびいくつかの特殊文字 (アットマーク) が含まれます。 、シャープ記号、ドル記号など)。これらの文字はすべて、1 バイトが提供するスペースの半分である 7 ビットのスペースを埋め、合計 128 文字になります。
その後、バイトの残りのビットは、合計 255 文字の余地を提供する拡張 ASCIIに使用されます。残りの部屋のほとんどは、ダイアクリティカル文字や線画文字などの特殊文字によって使用されます。しかし、残りの部屋はそれぞれが独自の方法 (IBM、コモドール、大学、組織など) で使用していたため、交換可能ではありませんでした。エンコーディング X を使用して最初にエンコードされた文字は、別のエンコーディング Y を使用してデコードされると、モジバケとして表示されます。その後、ISO は 8 ビット ASCII 拡張の標準文字エンコーディング定義を考案し、既知のISO 8859をもたらしました。ISO 8859-1 などの ASCII の上に基づく文字エンコーディング標準により、すべての互換性が向上します。
ラテン語のアルファベットを使用する言語には 8 ビットで十分かもしれませんが、中国語、日本語、ヘブライ語、キリル語、サンスクリット語、アラビア語など、世界の残りのラテン語以外の言語には十分ではありません。それらはすべてわずか8ビットです。彼らは、Guobiao、BIG5、JIS、KOI、MIK、TSCII などの独自の非 ISO 文字エンコーディングを開発しましたが、これも交換できませんでした。最後に、ISO 8859-1 に基づいた新しい文字エンコーディング標準が確立され、世界中で使用されているすべての文字をカバーして、どこでも交換できるようになりました。それがUnicodeです。現在、約 10% が埋められている 100 万文字以上のスペースを提供します。UTF -8文字エンコーディングは Unicode に基づいています。
Unicode 文字は 17のプレーンに分類され、それぞれに 65536 文字 (16 ビット) の余地があります。
通常、BMP のみに関心があり、UTF-8 エンコーディングをアプリケーション全体の標準文字エンコーディングとして使用します。