OCRの品質を維持しながら、画像をスキャンしたPDFの品質/ファイルサイズを最適化しようとしています。
高品質の pdf ドキュメントの ocr の後にダウンサンプリングを試みることはできますが、私が使用しているツール (主に acrobat) は、Photoshop を使用してより低い dpi/最適化されたページをエクスポートし、これらのページを使用してpdf.
より良い解決策は、可能であれば、ocr された image-pdf ドキュメント (現在のケースでは 800M) を取得し、ocr レイヤーを低解像度のダウンサンプリングされたドキュメントに適用することです。
pdfminer を使用して、座標を xml として OCR 情報を正常に抽出できますが、これを取り、Photoshop を使用してダウンサンプリングされた同じファイルに適用したいと思います。これはpdftkで可能だと読んだと思いましたが、この情報を見つけることができなくなりました。
どんな提案でも大歓迎です。
ジャック