OCRアプリケーションを実行するための一連の画像があります。このプロセスにより、文字オフセットを含むXMLファイルが作成されます。次に、Acrobat 9を使用して画像をPDFに変換します。次に、検索可能なPDFを実現するために、XMLファイル情報を非表示のテキストレイヤーとしてPDFに追加します。簡単で自由な方法はありますか?
いくつかの詳細:
AcrobatのOCR機能を使用したくありません。
OCRプロセスにより、次のような要素を含むXMLファイルが作成されます。
<line baseline="1049" l="158" t="1012" r="1196" b="1060">This is a sample line of text from an image</line>
更新:私がやりたいことを別の方法で行うことが可能かもしれません。一連の画像から生成されたPDFファイルがすでに存在し、その中にOCRedテキストがすでに含まれているとします。(おそらくプログラムで)各ページの画像だけにアクセスし、それを処理して(たとえば、モノクロに変換して)、PDFファイルに保存することは可能でしょうか?はいの場合、OCRedテキストは失われません。
[この更新を別の質問に入れる必要がありますか?]