pdf - まだOCRされていないPDFをバッチOCRする

Question

10,000 個の PDF があり、そのうちのいくつかは OCR されており、そのうちのいくつかには OCR されたページが 1 つありますが、残りのページは OCR されていません。行われて？

score 1 · Accepted Answer

すべてをOCRし直してみませんか？繰り返しの作業に費やす時間は、おそらく作業自体にかかる時間よりも多くなります。

score 0 · Accepted Answer

OCRedによって、機械可読形式のテキストが含まれていることを意味する場合は、Apache PDFBoxなどのライブラリを使用して、ドキュメントの2ページ目からテキストを抽出することができます。エラーをスローしたり、ガベージを返したりする場合は、OCRedではない可能性があります。

score 0 · Accepted Answer

このスレッドを掘り下げます。

pdffonts でそれらをテストすることにより、どの PDF ファイルが既に OCR されているかを知ることができます。フォントが埋め込まれている場合は、PDF が既に OCRed になっている可能性が非常に高くなります。

バッチ処理に関しては、OCR を pdf/word/excel/csv 出力形式にバッチ処理できる小さなスクリプトを作成しました。

https://github.com/deajan/pmOCR pmOCRで見つけることができます (貧弱な OCR は、Linux または Tesseract 3 オープンソースソリューション用の Abbyy OCR CLI のラッパーです)。

4 に答える 4