4

私は会社で Unicode とエンコーディングについて技術的な講演を行っています。その中で、文字列は常にエンコードされていること、開発者はすべてが 0 ~ 127 ASCII であると不用意に想定してはならないことを強調しようとしています。

誤ってエンコードされたテキストが原因で発生した問題の例は数多くありますが、Unicodeコード ポイント127を超えてエンコードされた数字を含む単純な英語のテキストの例は見つかりませんでした。

基本的な英語のアルファベットは、Unicode で単純な古い ASCII と同じ数値にマッピングされます。範囲A-Z[65-90](または[0x41-0x5a]hex) に[a-z]マッピングされ、[97-122](hex [0x61-0x7a]) にマッピングされます。

英語のアルファベットはコード表のどこかに表示されますか? サーカムフレックス文字やその他のラテン語の変形を意味するのではなく、単なる英語のアルファベットです。

4

3 に答える 3

5

CJK 文字は通常、すべてのフォントでモノスペースで書かれています。

ただし、CJK と英語の文字を混在させると、問題が発生します。一般に、ASCII 文字の幅は CJK 文字の幅ではありません。これは、ASCII を使用すると等幅のプロパティが失われることを意味します。これは常に望ましいとは限りません。

この目的のために、フルウィッド文字 (U+FF00-FFEE、ウィキペディアUnicode コード表) を「通常の」文字の代わりに使用できます。これらは、1 つの CJK 文字と同じ幅を持つという特性があります。

ただし、全角文字は CJK コンテキスト以外では実質的に使用されないことに注意してください。これらのコンテキストでも、等幅が重要でないと見なされる場合はプレーン ASCII も頻繁に使用されます。

于 2012-08-06T11:31:26.477 に答える
3

多くの句読点と記号には、U+007F を超えるコード ポイント値があります。

  • 「こんにちは。」</li>
  • 彼は、金と銀のクレヨンを含む 64 個のクレヨラの包括的な箱を渡され、私に見せてくれませんでした。
  • x≠y

上記の例では以下を使用しています。

  • U+201C および U+201D — スマートクオート
  • U+2014 — emダッシュ
  • U+2260 — 等しくない

詳細については、Unicode チャートを参照してください。

于 2012-08-06T08:25:42.867 に答える
2

ええと、あなたが単に意味a-zし、A-Zそれからいいえの場合、127を超える英語の文字はありません。しかしfiancéresuméなどの単語は英語でそのように綴られ、127を超えるコードポイントを使用することがあります。

次に、127を超えるさまざまな句読点、通貨記号などがあります。これが単純な英語のテキストとしてカウントされるかどうかはわかりません。

于 2012-08-06T08:13:37.617 に答える