0

pdfbox を使用して、このpdfから画像とテキストを抽出しています。テキストを抽出するための次のコードがあります。

 PDFTextStripper p = new PDFTextStripper();
 String thistext=p.getText(document);

テキストを適切に抽出します。ただし、クラスを使用して同じ pdf から画像を抽出しようとすると、ExtractImages生成される画像は実際の画像ではなく、pdf のすべてのページになります。これは、pdf がスキャンされたコピーである可能性があるためですか? それが本当なら、なぜテキストが抽出されるのでしょうか?

4

1 に答える 1

1

スキャンされているという事実はあなたの問題だと思います。スキャンした PDF がテキストを検出する (そして強調表示可能にする) のを見たことがありますが、それはまだイメージです。この仮説を検証するために、このような既知の優れた PDF を使用してみます。

于 2013-01-31T02:59:17.923 に答える