pdfbox を使用して、このpdfから画像とテキストを抽出しています。テキストを抽出するための次のコードがあります。
PDFTextStripper p = new PDFTextStripper();
String thistext=p.getText(document);
テキストを適切に抽出します。ただし、クラスを使用して同じ pdf から画像を抽出しようとすると、ExtractImages
生成される画像は実際の画像ではなく、pdf のすべてのページになります。これは、pdf がスキャンされたコピーである可能性があるためですか? それが本当なら、なぜテキストが抽出されるのでしょうか?