emacs - Emacs 23はUnicodeの4倍の文字セットを使用しています-なぜですか？

Question

Emacs 23.1ニュースから：

***Emacsの文字セットはUnicodeのスーパーセットになりました。（コードスペースは約4倍あり、十分なはずです）。

そして後で詳細：

***マルチバイトバッファおよび文字列では、文字はUTF-8バイトシーケンスで表されます。文字コードスペースは0x0..0x3FFFFFになり、ギャップはありません。コードポイント0x0..0x10FFFFは同じコードポイントのUnicode文字ですが、コードポイント0x3FFF80..0x3FFFFFは生の8ビットバイトです。

ウィキペディアによると、UCSの BMPには65536文字、最新バージョンのUnicodeには107000文字以上、UCSには100万以上のコードポイントが含まれています。0x3FFFFFは400万を超えています。

どのような問題を解決できますか、それ以外の場合は、Unicodeのスーパーセットである内部文字セットを使用することがどのように有益ですか？

score 23 · Accepted Answer

Unicodeは、すべての人間の言語に必要な文字セットを網羅するように設計されています。これは、コードのグローバリゼーション/ローカリゼーションに確かに役立ちますが、Emacsは神自身のツールであるため、神が使用する可能性のあるすべての文字も網羅する必要があります。あらゆる種類（旧支配者のエルドリッチルーンを含むがこれに限定されない）、宇宙飛行レース（将来のエイリアンの大君主を含むがこれに限定されない）、超インテリジェントマシンインテリジェント（将来のロボットマスターを含むがこれに限定されない））そして無限の宇宙の力を望む他のすべての存在。それは潜在的にたくさんのキャラクターです！

または、UTF-8が、UnicodeセットやEmacsがUTF-8全体をサポートするよりもはるかに多くのスペースを持つ文字をエンコードする方法である可能性もありますが、上記の説明をお勧めします。

emacs - Emacs 23はUnicodeの4倍の文字セットを使用しています-なぜですか？

1 に答える 1

Related

Reference