unicode - Unicode: コードポイント 127 より上の英語の文字

Question

私は会社で Unicode とエンコーディングについて技術的な講演を行っています。その中で、文字列は常にエンコードされていること、開発者はすべてが 0 ～ 127 ASCII であると不用意に想定してはならないことを強調しようとしています。

基本的な英語のアルファベットは、Unicode で単純な古い ASCII と同じ数値にマッピングされます。範囲A-Zは[65-90](または[0x41-0x5a]hex) に[a-z]マッピングされ、[97-122](hex [0x61-0x7a]) にマッピングされます。

英語のアルファベットはコード表のどこかに表示されますか? サーカムフレックス文字やその他のラテン語の変形を意味するのではなく、単なる英語のアルファベットです。

score 5 · Accepted Answer

CJK 文字は通常、すべてのフォントでモノスペースで書かれています。

ただし、CJK と英語の文字を混在させると、問題が発生します。一般に、ASCII 文字の幅は CJK 文字の幅ではありません。これは、ASCII を使用すると等幅のプロパティが失われることを意味します。これは常に望ましいとは限りません。

この目的のために、フルウィッド文字 (U+FF00-FFEE、ウィキペディア、Unicode コード表) を「通常の」文字の代わりに使用できます。これらは、1 つの CJK 文字と同じ幅を持つという特性があります。

ただし、全角文字は CJK コンテキスト以外では実質的に使用されないことに注意してください。これらのコンテキストでも、等幅が重要でないと見なされる場合はプレーン ASCII も頻繁に使用されます。

score 3 · Accepted Answer

多くの句読点と記号には、U+007F を超えるコードポイント値があります。

「こんにちは。」</li>
彼は、金と銀のクレヨンを含む 64 個のクレヨラの包括的な箱を渡され、私に見せてくれませんでした。

x≠y

上記の例では以下を使用しています。

詳細については、Unicode チャートを参照してください。

score 2 · Accepted Answer

ええと、あなたが単に意味a-zし、A-Zそれからいいえの場合、127を超える英語の文字はありません。しかしfiancé、resuméなどの単語は英語でそのように綴られ、127を超えるコードポイントを使用することがあります。

次に、127を超えるさまざまな句読点、通貨記号などがあります。これが単純な英語のテキストとしてカウントされるかどうかはわかりません。

unicode - Unicode: コード ポイント 127 より上の英語の文字