xml - 外部OCRを既存のPDFに埋め込む方法は？

Question

OCRアプリケーションを実行するための一連の画像があります。このプロセスにより、文字オフセットを含むXMLファイルが作成されます。次に、Acrobat 9を使用して画像をPDFに変換します。次に、検索可能なPDFを実現するために、XMLファイル情報を非表示のテキストレイヤーとしてPDFに追加します。簡単で自由な方法はありますか？

いくつかの詳細：

AcrobatのOCR機能を使用したくありません。
OCRプロセスにより、次のような要素を含むXMLファイルが作成されます。

<line baseline="1049" l="158" t="1012" r="1196" b="1060">This is a sample line of text from an image</line>

更新：私がやりたいことを別の方法で行うことが可能かもしれません。一連の画像から生成されたPDFファイルがすでに存在し、その中にOCRedテキストがすでに含まれているとします。（おそらくプログラムで）各ページの画像だけにアクセスし、それを処理して（たとえば、モノクロに変換して）、PDFファイルに保存することは可能でしょうか？はいの場合、OCRedテキストは失われません。

[この更新を別の質問に入れる必要がありますか？]

score 1 · Accepted Answer

隠しレイヤーを失うことなくPDFファイルを処理することについてのあなたのフォローアップの質問のために：私はGhostscriptがこれを行うことができると信じています。たとえば、次のコマンドはPDFをグレースケールに変換する必要があります。

gs -q -dNOPAUSE -dBATCH -sDEVICE=pdfwrite -dColorConversionStrategy=/Gray -dProcessColorModel=/DeviceGray -sOutputFile=output.pdf input.pdf

score -1 · Accepted Answer

既存のPDFをグレースケールに変換するだけの場合は、Imagemagickを試してください。

convert foo.pdf -colorspace Gray -compress zip gray.pdf

これによってPDFの他の属性が変わることはないと思います。

xml - 外部OCRを既存のPDFに埋め込む方法は？

2 に答える 2

Related

Reference