3

10,000 個の PDF があり、そのうちのいくつかは OCR されており、そのうちのいくつかには OCR されたページが 1 つありますが、残りのページは OCR されていません。行われて?

4

4 に答える 4

1

すべてをOCRし直してみませんか?繰り返しの作業に費やす時間は、おそらく作業自体にかかる時間よりも多くなります。

于 2009-10-13T17:18:37.483 に答える
0

OCRedによって、機械可読形式のテキストが含まれていることを意味する場合は、Apache PDFBoxなどのライブラリを使用して、ドキュメントの2ページ目からテキストを抽出することができます。エラーをスローしたり、ガベージを返したりする場合は、OCRedではない可能性があります。

于 2009-10-13T17:34:41.470 に答える
0

このスレッドを掘り下げます。

pdffonts でそれらをテストすることにより、どの PDF ファイルが既に OCR されているかを知ることができます。フォントが埋め込まれている場合は、PDF が既に OCRed になっている可能性が非常に高くなります。

バッチ処理に関しては、OCR を pdf/word/excel/csv 出力形式にバッチ処理できる小さなスクリプトを作成しました。

https://github.com/deajan/pmOCR pmOCRで見つけることができます (貧弱な OCR は、Linux または Tesseract 3 オープン ソース ソリューション用の Abbyy OCR CLI のラッパーです)。

于 2015-08-27T08:07:13.513 に答える