java - Apache PDFBox 1.3.1 での PDF 抽出の問題

Question

Apache PDFBox を使用して PDF からデータを抽出しているときに、いくつかの問題に直面しています。PDFBox バージョン 1.1 では、データを適切に抽出できました。しかし、バージョン 1.3.1 では同じコードが異なる出力を示しています。いくつかの PDF でのみ、この問題に直面しています。

コードサンプル

PDDocument document = PDDocument.load(new File("sample.pdf"));
PDFTextStripper stripper = new PDFTextStripper();
stripper.setSortByPosition( true );
System.out.println(stripper.getText(document));

出力例は次のとおりです。

バージョン 1.1 の場合: 口座番号 xxxxx xxxxxx-xx-x .....

バージョン1.3.1：schdoe sisinrrpnnvuttccraareilleuucfczex dde、pt reef hr rusdediibc n dsdveoe i：piitgdtlayieutais bll sxpuwf rn ew df ew l er .rdceo ds mwecritvhais burtgedsicte burtedce TAoiucllttciaonol g PuA Danmyta otNeuunmt Dbueer 00$0T P9122a5/0/g3117e198. /4/211 17 11o6f0 3498-01-6 THITTTPTNoFHHoDC ttEE HDaaDE lliiAAP ggVXAM-hiTRtTFda A Tueo .....

何が問題なのか誰にも分かりますか？

score 0 · Accepted Answer

ここから PDFBox 1.5.0 を試すことをお勧めします。このリリースでは、多くのテキスト抽出の問題が修正されています。

java - Apache PDFBox 1.3.1 での PDF 抽出の問題

コードサンプル

1 に答える 1

Related

Reference