7

OCRアプリケーションを実行するための一連の画像があります。このプロセスにより、文字オフセットを含むXMLファイルが作成されます。次に、Acrobat 9を使用して画像をPDFに変換します。次に、検索可能なPDFを実現するために、XMLファイル情報を非表示のテキストレイヤーとしてPDFに追加します。簡単で自由な方法はありますか?

いくつかの詳細:

  • AcrobatのOCR機能を使用したくありません。

  • OCRプロセスにより、次のような要素を含むXMLファイルが作成されます。

    <line baseline="1049" l="158" t="1012" r="1196" b="1060">This is a sample line of text from an image</line>

更新:私がやりたいことを別の方法で行うことが可能かもしれません。一連の画像から生成されたPDFファイルがすでに存在し、その中にOCRedテキストがすでに含まれているとします。(おそらくプログラムで)各ページの画像だけにアクセスし、それを処理して(たとえば、モノクロに変換して)、PDFファイルに保存することは可能でしょうか?はいの場合、OCRedテキストは失われません。

[この更新を別の質問に入れる必要がありますか?]

4

2 に答える 2

1

隠しレイヤーを失うことなくPDFファイルを処理することについてのあなたのフォローアップの質問のために:私はGhostscriptがこれを行うことができると信じています。たとえば、次のコマンドはPDFをグレースケールに変換する必要があります。

gs -q -dNOPAUSE -dBATCH -sDEVICE=pdfwrite -dColorConversionStrategy=/Gray -dProcessColorModel=/DeviceGray -sOutputFile=output.pdf input.pdf
于 2009-10-05T22:28:48.327 に答える
-1

既存のPDFをグレースケールに変換するだけの場合は、Imagemagickを試してください。

convert foo.pdf -colorspace Gray -compress zip gray.pdf

これによってPDFの他の属性が変わることはないと思います。

于 2009-10-01T16:15:14.033 に答える