6

ASCII と拡張 ASCII に固有の問題とは何ですか? また、これらの問題は Unicode によってどのように克服されますか?

ユニコードの互換性について説明してもらえますか?

また、平面、基本多言語平面 (BMP)、補助多言語平面 (SMP)、補助漢字平面 (SIP)、補助特殊平面 (SSP)、私的使用平面 (PUP) などの Unicode に関連する用語は何を意味しますか。

私はこれらすべての言葉が非常に紛らわしいと感じました

4

1 に答える 1

11

アスキー

ASCIIは多かれ少なかれ最初の文字エンコーディングでした。1 バイトが非常に高価で、1MHz が非常に高速だった時代には、古代の米国のタイプライター(および現在の平均的な米国国際キーボード) に表示される文字だけが、ASCII 文字エンコーディングの文字セットでカバーされていました。これには、完全なラテン アルファベット (A ~ Z、小文字と大文字の両方)、数字 (0 ~ 9)、字句制御文字 (スペース、ドット、コンマ、コロンなど)、およびいくつかの特殊文字 (アットマーク) が含まれます。 、シャープ記号、ドル記号など)。これらの文字はすべて、1 バイトが提供するスペースの半分である 7 ビットのスペースを埋め、合計 128 文字になります。

拡張 ASCII および ISO 8859

その後、バイトの残りのビットは、合計 255 文字の余地を提供する拡張 ASCIIに使用されます。残りの部屋のほとんどは、ダイアクリティカル文字や線画文字などの特殊文字によって使用されます。しかし、残りの部屋はそれぞれが独自の方法 (IBM、コモドール、大学、組織など) で使用していたため、交換可能ではありませんでした。エンコーディング X を使用して最初にエンコードされた文字は、別のエンコーディング Y を使用してデコードされると、モジバケとして表示されます。その後、ISO は 8 ビット ASCII 拡張の標準文字エンコーディング定義を考案し、既知のISO 8859をもたらしました。ISO 8859-1 などの ASCII の上に基づく文字エンコーディング標準により、すべての互換性が向上します。

ユニコード

ラテン語のアルファベットを使用する言語には 8 ビットで十分かもしれませんが、中国語、日本語、ヘブライ語、キリル語、サンスクリット語、アラビア語など、世界の残りのラテン語以外の言語には十分ではありません。それらはすべてわずか8ビットです。彼らは、Guobiao、BIG5、JIS、KOI、MIK、TSCII などの独自の非 ISO 文字エンコーディングを開発しましたが、これも交換できませんでした。最後に、ISO 8859-1 に基づいた新しい文字エンコーディング標準が確立され、世界中で使用されているすべての文字をカバーして、どこでも交換できるようになりました。それがUnicodeです。現在、約 10% が埋められている 100 万文字以上のスペースを提供します。UTF -8文字エンコーディングは Unicode に基づいています。

Unicode プレーン

Unicode 文字は 17のプレーンに分類され、それぞれに 65536 文字 (16 ビット) の余地があります。

  • プレーン 0: Basic Multilingual Plane (BMP)、世界で知られているすべての現代言語の文字が含まれています。
  • プレーン 1:補助多言語プレーン (SMP)には、歴史的な言語/スクリプトだけでなく、多言語の音楽記号や数学記号も含まれています。
  • Plane 2: Supplementary Ideographic Plane (SIP)。「特別な」CJK (中国語/日本語/韓国語) の文字が含まれています。これらの文字はかなり多く、現代の文章ではほとんど使用されていません。「通常の」CJK 文字は、BMP に既に存在します。
  • 3-13面:未使用
  • プレーン 14: Supplementary Special Plane (SSP)、タグ文字とグリフ バリエーション セレクターのみを含む限り。タグ文字は現在非推奨であり、将来削除される可能性があります。グリフ バリエーション セレクターは、既存の文字に追加する一種のメタデータとして使用されます。これにより、文字にわずかに異なるグリフを与えるようリーダーに指示できます。
  • Planes 15-16: Private Use Planes (PUP)。(主要な) 組織またはユーザー イニシアチブが独自の特殊文字または記号を規格に含めて、どこでも交換できるようにする余地を提供します。たとえば、絵文字(日本式のスマイリー/感情表現)。

通常、BMP のみに関心があり、UTF-8 エンコーディングをアプリケーション全体の標準文字エンコーディングとして使用します。

于 2010-08-26T12:03:24.060 に答える