java - Java には、さまざまなバイトオーダーマークを取得するメソッドがありますか?

Question

エンコーディングの適切なバイトオーダーマークに対応するバイトを返す Java のユーティリティメソッドまたは定数を探していますが、見つからないようです。ありますか？私は本当に次のようなことをしたいと思います:

byte[] bom = Charset.forName( CharEncoding.UTF8 ).getByteOrderMark();

CharEncodingApache Commons の由来はどこにありますか。

score 4 · Accepted Answer

Java は UTF-8 のバイトオーダーマークを認識しません。バグ4508058および6378911を参照してください。

要点は、サポートが追加され、下位互換性が失われ、ロールバックされたということです。UTF-8 で BOM 認識を自分で行う必要があります。

score 3 · Accepted Answer

Apache Commons IO には、探しているものが含まれています。を参照してくださいorg.apache.commons.io.ByteOrderMark。

score 2 · Accepted Answer

次のように BOM を生成できます。

byte[] utf8_bom = "\uFEFF".getBytes("UTF-8");
byte[] utf16le_bom = "\uFEFF".getBytes("UnicodeLittleUnmarked");

この方法を使用して他のエンコーディング用の BOM を作成する場合は、BOM を自動的に挿入しないバージョンのエンコーディングを使用してください。そうしないと、BOM が繰り返されます。この手法は Unicode エンコーディングにのみ適用され、他のもの (Windows-1252 など) にとって意味のある結果は得られません。

score 1 · Accepted Answer

私が見る限り、JDKには何もありませんし、Apacheプロジェクトもありません。

Eclipse EMF には Enum がありますが、サポートを提供します。

org.eclipse.emf.ecore.resource.ContentHandler.ByteOrderMark

それがあなたの助けになるかどうかわかりませんか？

各エンコーディングタイプのさまざまな BOM に関する詳細情報がここにあります。このために単純なヘルパークラスまたは列挙型を作成できます...

http://mindprod.com/jgloss/bom.html

それが役立つことを願っています。正直なところ、これが Commons I/O にないことに驚いています。

score 1 · Accepted Answer

多くのエンコーディングでは、バイトオーダーマークが使用されていないことに注意してください。たとえば、UTF-8 の空の文字列は単なる空の byte[] です。UTF-8 用に指定された BOM がありますが、Java ではめったに使用されず、常にサポートされているわけではありません。

java - Java には、さまざまなバイト オーダー マークを取得するメソッドがありますか?

5 に答える 5

Related

Reference

java - Java には、さまざまなバイトオーダーマークを取得するメソッドがありますか?