次のコードで Apache Tika (tika-app-1.3) を使用して PDF ファイルを解析しています。
InputStream input = new FileInputStream("Introduction.pdf");
AutoDetectParser parser = new AutoDetectParser();
BodyContentHandler handler = new BodyContentHandler(100 * 1024 * 1024);
Metadata metadata = new Metadata();
parser.parse(input, handler, metadata);
System.out.println(handler.toString());
handler.toString()
PDFテキストを表示していますが、このテキストには?
記号として表示されている箇条書きも含まれていますが、これらの箇条書きをそのままにしたい. Apache Tika を使用して元のコンテンツをそのまま取得する方法はありますか? または、解析時にどこでエンコーディングを定義する必要がありますか?