2列形式のpdfがあります。単純なテキストに解析することはできますが、これらの pdf には間に画像もあります。その結果、間に画像があるPDFの特定のページのテキスト出力がごちゃごちゃになります。
たとえば、2 列のページ形式を考えてみましょう
画像テキスト2
イメージ イメージ
画像テキスト3
Text1 画像
Text4
出力は、Text1 Text2 Text3 Text4 ではなく、Text4 Text3 Text2 Text1 です。
これが適切な順序でテキストを読むための解決策はありますか?
次のコードを使用しています
public void parsePdf(String pdf, String txt) throws IOException {
PdfReader reader = new PdfReader(pdf);
PdfReaderContentParser parser = new PdfReaderContentParser(reader);
PrintWriter out = new PrintWriter(new FileOutputStream(txt));
TextExtractionStrategy strategy;
for (int i = 76; i <= reader.getNumberOfPages(); i++) {
strategy = parser.processContent(i, new SimpleTextExtractionStrategy());
out.println(strategy.getResultantText());
}
out.flush();
out.close();
}