TIFFファイルをインデックス可能なPDFにバッチ変換するユーティリティが必要です。ソフトウェアはLinuxで実行する必要があり、コマンドラインから動作する必要があります。ソフトウェアはオープンソースである必要はありません。tesseractとhocr2pdfを使用して変換を試しましたが、テキストが文字化けしたPDFが生成されます(注:PDF内の「すべての」テキストを「すべて選択」した場合にのみテキストが文字化けします)。他のユーティリティを見つけましたが、それらはWindowsでのみ実行されるか、コマンドラインからは機能しません。前もって感謝します。
5 に答える
Mogrifyはあなたを助けることができるはずです:
これはまさにあなたが探しているものです:
ABBYYの市場で最高のOCRに基づくLinux用のコマンドラインOCRツール。(免責事項:私はABBYYで働いています)
いくつかのツール(Abbyyを含む)を試した後、私は次のことを決定しました:Vividata。彼らはまともな価格設定をしていて、Linuxの下で実行され、年間のページ数に制限はありません。
この答えは斜めで、部分的なものにすぎません。それがあなたに当てはまらない場合は無視してください。
そのようなソフトウェアが存在するかもしれませんが、私はそれに精通していません。2000行程度のコードを記述してそれを満たす必要がある場合は、Linux指向のLibpopplerがあります。これは、独自のカスタムPDFを作成するためのインターフェイスを提供します。欲しい。残念ながら、Libpopplerは価値がありますが、コーディングするのは特に快適ではありません。そして、残念ながら、それにコードを書くと、おそらくPDF標準の長い部分を読んでいることに気付くでしょう。
そのようなソフトウェアを作成する場合は、オープンソースとして公開することを検討してください。
幸運を。
Tesseract3またはAbbyyOCR11を使用するbashスクリプトを作成しました。これは、バッチ変換またはディレクトリモニターモードでの実行が可能です。
あなたの場合
pmocr.sh --batch --target=PDF /path/to/tiff/files
こちらのスクリプトをご覧ください: https ://github.com/deajan/pmOCR