1

ウィキペディアには、 UnicodeのLatin 1 Supplementの下に x80—x9F "C1" 範囲のリストがあります。この範囲は、ISO-8859-1コードページでも予約されています。

\x96文字列のファイルを見ていますが、住所の真ん中など、ダッシュのように見えるいくつかのインスタンスを除いて、すべてが 7 ビット ASCII の範囲内にあります。

C1 範囲の他の文字が最終的にデータに表示されるかどうかはわかりません。そのため、ファイルを正しく読み取る方法があるかどうかを知りたいです。端末制御文字の代わりに文字データに x80 から x9F を使用する 8 ビット エンコーディングはありますか?

4

2 に答える 2

2

グラフィック文字を 0x80 から 0x9F の範囲の一部またはすべてのバイトに割り当てる 8 ビット エンコーディングは多数 (場合によっては無数に) あります。Microsoft によって定義されたいくつかのエンコーディングでは、バイト位置 0x96 に U+2013 EN DASH "–" があり、この文字は番地、特に数字の間に現れる可能性があります。

一方、たとえば、MacRoman では 0x96 の位置に「ñ」という文字があり、たとえばスペイン語の通りの名前に表示される可能性があります。

状況を合理的に分析するには、場合によっては 0x00 から 0x7F の Ascii 範囲外のすべてのバイトを検出するフィルターを使用して、データ全体を検査し、文字が表示されるコンテキストを調べ、次の技術情報を見つけようとする必要があります。データの元。

于 2013-08-23T19:39:17.577 に答える
0

エンダッシュです。ハイフン(0x2D)とは少し違うと思います。

http://www.ascii-code.com/

于 2013-08-23T19:14:23.390 に答える