10,000 個の PDF があり、そのうちのいくつかは OCR されており、そのうちのいくつかには OCR されたページが 1 つありますが、残りのページは OCR されていません。行われて?
user189282
質問する
3270 次
4 に答える
1
すべてをOCRし直してみませんか?繰り返しの作業に費やす時間は、おそらく作業自体にかかる時間よりも多くなります。
于 2009-10-13T17:18:37.483 に答える
0
OCRedによって、機械可読形式のテキストが含まれていることを意味する場合は、Apache PDFBoxなどのライブラリを使用して、ドキュメントの2ページ目からテキストを抽出することができます。エラーをスローしたり、ガベージを返したりする場合は、OCRedではない可能性があります。
于 2009-10-13T17:34:41.470 に答える
0
このスレッドを掘り下げます。
pdffonts でそれらをテストすることにより、どの PDF ファイルが既に OCR されているかを知ることができます。フォントが埋め込まれている場合は、PDF が既に OCRed になっている可能性が非常に高くなります。
バッチ処理に関しては、OCR を pdf/word/excel/csv 出力形式にバッチ処理できる小さなスクリプトを作成しました。
https://github.com/deajan/pmOCR pmOCRで見つけることができます (貧弱な OCR は、Linux または Tesseract 3 オープン ソース ソリューション用の Abbyy OCR CLI のラッパーです)。
于 2015-08-27T08:07:13.513 に答える