1

TIFFファイルをインデックス可能なPDFにバッチ変換するユーティリティが必要です。ソフトウェアはLinuxで実行する必要があり、コマンドラインから動作する必要があります。ソフトウェアはオープンソースである必要はありません。tesseractとhocr2pdfを使用して変換を試しましたが、テキストが文字化けしたPDFが生成されます(注:PDF内の「すべての」テキストを「すべて選択」した場合にのみテキストが文字化けします)。他のユーティリティを見つけましたが、それらはWindowsでのみ実行されるか、コマンドラインからは機能しません。前もって感謝します。

4

5 に答える 5

1

Mogrifyはあなたを助けることができるはずです:

http://linux.die.net/man/1/mogrify

于 2012-05-29T15:09:36.387 に答える
1

これはまさにあなたが探しているものです:

http://ocr4linux.com/en:start

ABBYYの市場で最高のOCRに基づくLinux用のコマンドラインOCRツール。(免責事項:私はABBYYで働いています)

于 2012-05-30T12:05:20.633 に答える
0

いくつかのツール(Abbyyを含む)を試した後、私は次のことを決定しました:Vividata。彼らはまともな価格設定をしていて、Linuxの下で実行され、年間のページ数に制限はありません。

于 2012-07-03T05:00:03.817 に答える
0

この答えは斜めで、部分的なものにすぎません。それがあなたに当てはまらない場合は無視してください。

そのようなソフトウェアが存在するかもしれませんが、私はそれに精通していません。2000行程度のコードを記述してそれを満たす必要がある場合は、Linux指向のLibpopplerがあります。これは、独自のカスタムPDFを作成するためのインターフェイスを提供します。欲しい。残念ながら、Libpopplerは価値がありますが、コーディングするのは特に快適ではありません。そして、残念ながら、それにコードを書くと、おそらくPDF標準の長い部分を読んでいることに気付くでしょう。

そのようなソフトウェアを作成する場合は、オープンソースとして公開することを検討してください。

幸運を。

于 2012-05-29T15:14:56.173 に答える
0

Tesseract3またはAbbyyOCR11を使用するbashスクリプトを作成しました。これは、バッチ変換またはディレクトリモニターモードでの実行が可能です。

あなたの場合

pmocr.sh --batch --target=PDF /path/to/tiff/files

こちらのスクリプトをご覧ください: https ://github.com/deajan/pmOCR

于 2016-09-11T15:51:17.443 に答える