pdf - TIFFをインデックス可能なPDFにバッチ変換するコマンドラインソフトウェア

Question

TIFFファイルをインデックス可能なPDFにバッチ変換するユーティリティが必要です。ソフトウェアはLinuxで実行する必要があり、コマンドラインから動作する必要があります。ソフトウェアはオープンソースである必要はありません。tesseractとhocr2pdfを使用して変換を試しましたが、テキストが文字化けしたPDFが生成されます（注：PDF内の「すべての」テキストを「すべて選択」した場合にのみテキストが文字化けします）。他のユーティリティを見つけましたが、それらはWindowsでのみ実行されるか、コマンドラインからは機能しません。前もって感謝します。

score 1 · Accepted Answer

1

Mogrifyはあなたを助けることができるはずです：

http://linux.die.net/man/1/mogrify

于 2012-05-29T15:09:36.387 に答える

score 1 · Accepted Answer

これはまさにあなたが探しているものです：

http://ocr4linux.com/en:start

ABBYYの市場で最高のOCRに基づくLinux用のコマンドラインOCRツール。（免責事項：私はABBYYで働いています）

score 0 · Accepted Answer

いくつかのツール（Abbyyを含む）を試した後、私は次のことを決定しました：Vividata。彼らはまともな価格設定をしていて、Linuxの下で実行され、年間のページ数に制限はありません。

score 0 · Accepted Answer

この答えは斜めで、部分的なものにすぎません。それがあなたに当てはまらない場合は無視してください。

そのようなソフトウェアが存在するかもしれませんが、私はそれに精通していません。2000行程度のコードを記述してそれを満たす必要がある場合は、Linux指向のLibpopplerがあります。これは、独自のカスタムPDFを作成するためのインターフェイスを提供します。欲しい。残念ながら、Libpopplerは価値がありますが、コーディングするのは特に快適ではありません。そして、残念ながら、それにコードを書くと、おそらくPDF標準の長い部分を読んでいることに気付くでしょう。

そのようなソフトウェアを作成する場合は、オープンソースとして公開することを検討してください。

幸運を。

score 0 · Accepted Answer

Tesseract3またはAbbyyOCR11を使用するbashスクリプトを作成しました。これは、バッチ変換またはディレクトリモニターモードでの実行が可能です。

あなたの場合

pmocr.sh --batch --target=PDF /path/to/tiff/files

こちらのスクリプトをご覧ください： https ：//github.com/deajan/pmOCR

pdf - TIFFをインデックス可能なPDFにバッチ変換するコマンドラインソフトウェア

5 に答える 5

Related

Reference