cups pdf で生成された Java の pdf ボックスで pdf ファイルを解析しようとすると、ジャンク文字が表示されます。しかし、それは一般的なpdfで完全に機能します。私がチェックしたフォントカップのpdfはFreeMono_00.ttfを示しています(しかし、私はそのようなフォントをどこにも見ませんでした)、動作するpdfはArialMTを示しています。
cups-pdf を使用して生成された pdf を解析するために別の方法でやりたいこと。
以下は、解析に使用しているコードです。
parser = new PDFParser(new FileInputStream(File file));
parser.parse();
COSDocument cosDoc = parser.getDocument();
PDFTextStripperpdfStripper = new PDFTextStripper();
PDDocument pdDoc = new PDDocument(cosDoc);
String parsedText = pdfStripper.getText(pdDoc);
出力はこのようになります
コピーペーストするだけでもこのようになります