pdf - PDFBox : Convert to image : スキャンしたドキュメントを含む PDF を変換すると品質が低下する

Question

私のユースケースはとてもシンプルです。PDF を画像に変換する必要があります。Apache pdfbox を使用してみましたが、スキャンした画像を含む PDF の変換に問題があります。スキャンした画像を変換すると、圧縮/スケーリングのために画像の鮮明さが失われます。だから私はPDFから画像データを抽出して保存しようとしていました。しかし問題は、画像とテキストを含む PDF ファイルを取得する可能性があることです。この場合、画像変換モードにフォールバックする必要があります。問題は、画像のみを含むページ/ドキュメントと複合データを含むページ/ドキュメントをどのように区別するかです。この目的で ProcSet 定義を使用できると考えていましたが、PDF 仕様によると、廃止され信頼性が低いとマークされているようです。他の可能性は、そのページにリンクされているすべてのオブジェクトをチェックして、画像以外のものが含まれているかどうかを確認することです。

score 0 · Accepted Answer

PDF を画像に変換する場合は、ImageMagickを使用することをお勧めします。ImageMagick を使用すると、画像の品質を変更するための多くのオプションがあります。また、ImageMagick を使用すると、pdf を画像に変換するのは非常に簡単です。

pdf - PDFBox : Convert to image : スキャンしたドキュメントを含む PDF を変換すると品質が低下する

1 に答える 1

Related

Reference