32

データを見ただけでは文字列形式のデータの文字エンコーディングを判断することは不可能であることを理解しています。これは私の質問ではありません。

私の質問は次のとおりです。慣例により、エンコード方式が指定されている PDF ファイル内のフィールドはありますか (例: UTF-8)? <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8">これは、HTML の場合とほぼ同じです。

事前にどうもありがとう、Blz

4

2 に答える 2

19

PDF仕様をざっと見てみると、 PDFファイル内で異なるエンコーディングを使用できることが示唆されているようです。86ページを見てください。したがって、ある種の低レベルアクセスを備えたPDFライブラリは、文字列に使用されるエンコーディングを提供できるはずです。ただし、テキストだけが必要で、使用される内部エンコーディングを気にしない場合は、ライブラリに変換を任せることをお勧めします。

于 2012-05-18T17:08:21.960 に答える