Apache PDFBox を使用して PDF からデータを抽出しているときに、いくつかの問題に直面しています。PDFBox バージョン 1.1 では、データを適切に抽出できました。しかし、バージョン 1.3.1 では同じコードが異なる出力を示しています。いくつかの PDF でのみ、この問題に直面しています。
コードサンプル
PDDocument document = PDDocument.load(new File("sample.pdf"));
PDFTextStripper stripper = new PDFTextStripper();
stripper.setSortByPosition( true );
System.out.println(stripper.getText(document));
出力例は次のとおりです。
バージョン 1.1 の場合: 口座番号 xxxxx xxxxxx-xx-x .....
バージョン1.3.1:schdoe sisinrrpnnvuttccraareilleuucfczex dde、pt reef hr rusdediibc n dsdveoe i:piitgdtlayieutais bll sxpuwf rn ew df ew l er .rdceo ds mwecritvhais burtgedsicte burtedce TAoiucllttciaonol g PuA Danmyta otNeuunmt Dbueer 00$0T P9122a5/0/g3117e198. /4/211 17 11o6f0 3498-01-6 THITTTPTNoFHHoDC ttEE HDaaDE lliiAAP ggVXAM-hiTRtTFda A Tueo .....
何が問題なのか誰にも分かりますか?