4

アプリケーションはユーザーからファイルを受け取ります。これらのファイルがサポートされているエンコードタイプ(UTF-8、Shift-JIS、EUC-JPなど)である場合は、それらのファイルを検証する必要があります。そのファイルが検証されたら、次のファイルも必要になります。そのファイルをシステムに保存し、そのエンコーディングをメタデータとして保存します。

現在、JCharDet(mozillaの文字検出器のJavaポート)を使用していますが、有効なShift-JIS文字として検出できないように見えるShift-JIS文字がいくつかあります。

他に何が使えるか考えてみませんか?

4

2 に答える 2

1

Apache Tikaはコンテンツ分析ツールキットで、エンコーディング スキームとは対照的に、主にファイル タイプの判別に役立ちますが、テキスト ファイル タイプのコンテンツ エンコーディング情報を返します。そのアルゴリズムが JCharDet ほど高度かどうかはわかりませんが、試してみる価値はあるかもしれません...

于 2010-09-11T13:04:45.553 に答える