unicode - ISO-8859-1はUnicode文字セットですか？

Question

「ISO-8859-1はUnicode形式です」と書かれたXMLの講義に参加しています。それは私には間違っているように聞こえますが、私がそれを研究しているとき、私はUnicodeが何であるかを正確に理解するのに苦労しています。

ISO-8859-1をUnicode形式と呼べますか？実際にUnicodeを何と呼ぶことができますか？

score 14 · Accepted Answer

ISO8859-1はUnicodeではありません

ISO8859-1はLatin-1としても知られています。直接Unicode形式ではありません。

ただし、そのコードポイント0x00..0xFFがUnicodeコードポイントU+0000 .. U+00FFに1対1でマップするという固有の特権があります。したがって、Unicodeの最初の256コードポイントは、1バイトの符号なし整数として扱われ、ISO8859-1にマップされます。

制御文字

Peregring-lkは、ISO8859-1 が制御コードを定義していないことを確認しています。U + 0000..U+007FおよびU+0080..U + 00FFのUnicodeチャートは、位置U + 0000..U+001FおよびU+007FにあるC0コントロールがISO/IEC 6429：1992および同様に、位置U + 0080..U+9FにあるC1コントロール。C0およびC1コントロールに関するウィキペディアは、標準が代わりにISO /IEC2022であることを示唆しています。3つのC1コントロールには正式な名前がないことに注意してください。

一般的に、ISO 8859-1コードセットの制御コードポイントは、ISO 6429（または2022）のC0およびC1制御であると想定されています。

score 11 · Accepted Answer

ISO-8859-1には、ASCIIと実質的に重複するUTF-8Unicodeのサブセットが含まれています。

すべてのASCIIはUTF-8Unicodeです。

コード7fhex以下のすべてのISO8859-1（ISO Latin 1）文字は、1バイトでASCII互換およびUTF-8互換です。発音区別符号を含む合字と文字は、マルチバイトのUnicode UTF-8表現を使用し、Unicode互換コードポイントを使用します。

すべてのUTF-8シングルバイト文字はASCIIに含まれています。

UTF-8にはマルチバイトシーケンスも含まれており、互換性コードポイントで表される文字の照合可能（つまりソート可能）同等物（つまり、合成同等物）であり、ASCIIおよびISO以外の他のすべての文字セットで表される文字です。ラテン文字1。

score 7 · Accepted Answer

いいえ、ISO 8859-1はUnicode文字セットではありません。これは、ISO 8859-1がすべてのUnicode文字のエンコーディングを提供しているわけではなく、その一部のみを提供しているためです。「charset」という単語は大まかに使用されることがありますが（したがって、多くの場合、避けるのが最善です）、技術用語としては、文字エンコードを意味します。

「Unicode文字セット」がUnicodeの一部をカバーするエンコーディングを意味するように定義を緩めると、意味がなくなります。その場合、すべてのエンコーディングは「Unicode文字セット」になります。

score 2 · Accepted Answer

いいえ。ISO/IEC8859-1はUnicodeよりも古いものです。たとえば、€は含まれていません。Unicodeは、ある程度までISO8859-1と互換性があります。Unicodeでの文字のコーディングについては、UCS / UTF8/UTF16を参照してください。

コード形式を見ると、次のようなものがあります。

抽象文字-使用している文字
コードテーブル-何らかの形で文字を持ってきてください（アルファベット順など）
コード形式-コードテーブルのどの位置がどの文字であるかを言います（つまり、UTF8またはUTF16エンコーディング）
コードスキーマ-コード位置にアクセスするためにより多くの単語を使用する場合、それらはどの順序ですか？（ビッグエンディアン、UTF16のリトルエンディアン）[ステアリング命令の文字エンコード（例：XMLの<）]

score 1 · Accepted Answer

「Unicode形式」の定義方法によって異なります。

ほとんどの人は、Unicodeの範囲（U + 0000-U + 10FFFF）の任意のコードポイントを表すことができるエンコーディングを意味すると思います。

その場合、いいえ、ISO8859-1はUnicode形式ではありません。

ただし、他のいくつかの定義は、「Unicode文字セットのサブセットである文字セット」または「Unicodeデータ（必ずしも任意のUnicodeデータではない）を含むと見なすことができるエンコーディング」である可能性があります。ISO 8859-1は、これらの定義の両方を満たしています。

Unicodeは多くのものです。これには文字セットが含まれており、「文字」にはコードポイント値が割り当てられています。文字のプロパティを定義し、文字とそのプロパティのデータベースを提供します。文字列を比較する方法、文字列を書記素クラスターや単語に分割する方法など、Unicodeテキストデータでさまざまなことを行うための多くのアルゴリズムを定義します。Unicodeコードポイントをエンコードでき、その他の便利なプロパティを持ついくつかの特別なエンコードを定義します。Unicodeコードポイントとレガシー文字セットのコードポイント間のマッピングを定義します。

ここで、より完全な答えを見つけることができます：Unicode.org

unicode - ISO-8859-1はUnicode文字セットですか？

5 に答える 5

ISO8859-1はUnicodeではありません

制御文字

Related

Reference