unicode - 実際に非UTFバイトオーダーマーク（BOM）を検出する価値はありますか

Question

厳密に言えば、BOM は (UTF-16 および UTF-32 の場合のように) エンディアン指標であると想定されていますが、UTF-8 BOM マーカーの場合のように、使用されているエンコードを示すために使用できます ( EF BB BF)。

BOM は単なる 2 オクテットコードポイントであるため、2 バイトコードポイントをサポートする任意のエンコーディングに変換でき、異なるエンコーディングが生成される可能性があります。いくつかの例は、BOM Wikipedia ページにリストされています。

UTF-1          F7 64 4C
UTF-EBCDIC     DD 73 66 73
SCSU           0E FE FF[t 4]
BOCU-1         FB EE 28
GB-18030       84 31 95 33

UTF-8 BOM (一般的で問題の原因となっている) とは別に、そのようなエンコーディング固有のマーカーで始まるファイルを実際に生成するツールやアプリケーションはありますか? おそらく他のエンコーディングからの変換の結果として、そのようなエンコーディングのファイルにそのようなマーカーが存在することから生じる問題はありますか? これの実際的な意味: エラーを回避するために少なくともそれらを無視してスキップする場合、サポートされているエンコーディングのプールでアプリケーションによってそのようなマーカーを検出することは良い習慣です。

unicode - 実際に非UTFバイトオーダーマーク（BOM）を検出する価値はありますか

0 に答える 0

Related

Reference