pdf - あるpdfから別のpdfにxml ocr/text情報をインポート/埋め込む

Question

OCRの品質を維持しながら、画像をスキャンしたPDFの品質/ファイルサイズを最適化しようとしています。

高品質の pdf ドキュメントの ocr の後にダウンサンプリングを試みることはできますが、私が使用しているツール (主に acrobat) は、Photoshop を使用してより低い dpi/最適化されたページをエクスポートし、これらのページを使用してpdf.

より良い解決策は、可能であれば、ocr された image-pdf ドキュメント (現在のケースでは 800M) を取得し、ocr レイヤーを低解像度のダウンサンプリングされたドキュメントに適用することです。

pdfminer を使用して、座標を xml として OCR 情報を正常に抽出できますが、これを取り、Photoshop を使用してダウンサンプリングされた同じファイルに適用したいと思います。これはpdftkで可能だと読んだと思いましたが、この情報を見つけることができなくなりました。

どんな提案でも大歓迎です。

ジャック

score 0 · Accepted Answer

PDF を作成する現在の方法について説明していただけますか?

IText を使用すると、追加する画像の圧縮レベルを設定できます。

役に立つかもしれません

1 に答える 1