java - pdfboxを使用して、テキストは抽出できるが画像は抽出できない理由

Question

pdfbox を使用して、このpdfから画像とテキストを抽出しています。テキストを抽出するための次のコードがあります。

 PDFTextStripper p = new PDFTextStripper();
 String thistext=p.getText(document);

テキストを適切に抽出します。ただし、クラスを使用して同じ pdf から画像を抽出しようとすると、ExtractImages生成される画像は実際の画像ではなく、pdf のすべてのページになります。これは、pdf がスキャンされたコピーである可能性があるためですか? それが本当なら、なぜテキストが抽出されるのでしょうか?

score 1 · Accepted Answer

スキャンされているという事実はあなたの問題だと思います。スキャンした PDF がテキストを検出する (そして強調表示可能にする) のを見たことがありますが、それはまだイメージです。この仮説を検証するために、このような既知の優れた PDF を使用してみます。

java - pdfboxを使用して、テキストは抽出できるが画像は抽出できない理由

1 に答える 1

Related

Reference