\ufeff
プログラムで、Unicode BOM 文字/を含むテキスト ファイルを読み込んでいます65279
。これは、さらなる解析においていくつかの問題を提示します。
現在、これらの文字を自分で検出してフィルタリングしていますが、Java 標準ライブラリまたは Guava にこれをよりきれいにする方法があるかどうかを知りたいです。
\ufeff
プログラムで、Unicode BOM 文字/を含むテキスト ファイルを読み込んでいます65279
。これは、さらなる解析においていくつかの問題を提示します。
現在、これらの文字を自分で検出してフィルタリングしていますが、Java 標準ライブラリまたは Guava にこれをよりきれいにする方法があるかどうかを知りたいです。
Java または実際には Guava で (UTF-8) BOM を処理する組み込みの方法はありません。
現在、Guava IO での BOM の処理に関するバグ レポートがGuava Web サイトにあります。
プレーン Java でファイルを読み取り中に BOM を検出/スキップする方法に関するいくつかの SO 投稿 (こことここ) があります。
あなたの BOM ( \ufeff
) はUTF-16のようです。同じ Guava レポートによると、Java によって自動的に処理されるはずです。This SO post は同じことを示唆しているようです。