search - PDFに画像のみが含まれているか、検索のためにOCRスキャンされているかを知るにはどうすればよいですか？

Question

スキャンしたドキュメントからのPDFファイルがたくさんあります。ファイルには、画像とテキストが混在しています。一部はOCRなしの画像としてスキャンされたため、ページ全体が完全にテキストである場合でも、各PDFページは1つの大きな画像になります。その他はOCRでスキャンされ、テキストが存在する場所に画像と検索可能なテキストが含まれています。多くの場合、画像内の単語でさえ検索可能になりました。

Acrobat 8 ProでOCRを使用して、スキャンしたすべてのドキュメントのテキストを認識する自動プロセスを作成したいのですが、過去にOCRプロセスを経たファイルを再OCRしたくありません。画像のみが含まれているものと、検索可能なテキストがすでに含まれているものを判別する方法があるかどうかを誰かが知っていますか？

これをC＃またはVB.NETで実行することを計画していますが、2種類のファイルを区別できるかどうかは言語に依存するとは思いません。

score 26 · Accepted Answer

テキストを検索可能にするために余波でOCRされたPDFに変換されたスキャン画像には、通常、「非表示」としてレンダリングされたテキスト部分が含まれています。したがって、画面（または印刷時に紙）に表示されるのは、元の画像のままです。ただし、検索に成功すると、非表示のテキストにあるヒットが強調表示されます。

XPDFから派生したコマンドラインツールpdffonts(.exe)、pdfinfo(.exe)およびを確認することをお勧めしますpdftotext(.exe)。ダウンロードについてはこちらをご覧ください：http ：//www.foolabs.com/xpdf/download.html

使用例pdffonts：

C:\downloads\> pdffonts cisco-ip-phone-7911-guide6.1.pdf
name                                 type              emb sub uni object ID
------------------------------------ ----------------- --- --- --- ---------
LGOKFL+Univers-BlackOblique          Type 1C           yes yes no   13171  0
LGOKGM+Univers-Black                 Type 1C           yes yes no   13172  0
[....]

このPDFは、フォント（'name'列で示される）を使用し、それらを埋め込み（'emb'列で'yes'で示される）、サブセットフォント（'sub'列で'yes'で示される）を使用します。

C:\downloads\> pdffonts examle1.pdf
name                                 type              emb sub uni object ID
------------------------------------ ----------------- --- --- --- ---------
Univers-BlackOblique                 Type 1C           yes no  no   14    0
Arial                                TrueType          no  no  no   15    0

このPDFは2つのフォントを使用しています（「名前」列で示されています）。フォント「Universe-BlackOblique」は完全に埋め込まれています（「emb」列の「yes」と「sub」列の「no」で示されます）。フォント「Arial」も使用されますが、埋め込まれていません。

C:\downloads\> pdffonts examle2.pdf
name                                 type              emb sub uni object ID
------------------------------------ ----------------- --- --- --- ---------

このPDFは単一のフォントを使用していないため、テキストは埋め込まれていません（したがって、OCRもありません）。

使用例pdftotext：

C:\downloads\> pdftotext ^
                   -layout ^
                   cisco-ip-phone-7911-guide6.1.pdf ^
                   cisco-ip-phone-7911-guide6.1.txt

これにより、PDFからすべてのテキスト文字列が抽出されます（元のレイアウトとの類似性を維持しようとします）。PDFにテキストがない場合は、OCRがなかったことがわかります...

score 1 · Accepted Answer

さまざまなPDFツールで、テキストがあるかどうかがわかります。COMコントロールとして使用できるものもあれば、ネイティブの.NETコントロールとして使用できるものもあります。

score 1 · Accepted Answer

ドキュメントをacrobatで開きます。[ファイル]->[プロパティ]に移動します。「詳細」セクションを見て、PDFプロデューサーを見つけてください。「PaperCapture...」のようなものが表示された場合は、OCRされています。

お役に立てれば。

score 0 · Accepted Answer

Apagoのpdfspyは、PDFからXMLファイルに情報を抽出します。画像やテキストなど、ドキュメントに関する情報が含まれています。プロジェクトの場合、役立つ情報には、画像の数とサイズ、およびOCR（非表示）テキストがある場所が含まれます。

http://www.apagoinc.com/pdfspy

score 0 · Accepted Answer

古いスレッドを掘り下げて申し訳ありませんが、これを見つけた場合は私のスレッドを見てください：

PDF用のバッチOCRプログラム

unix / linux / osxでカタログ化するか、Pythonで「rb」モードとして開くことで、PDFに関する追加情報を取得できます。（もちろん、Pythonであり、それを使用したくありませんでしたが、おそらく同等のものがあります）。

score -2 · Accepted Answer

「dtsearch」を使用してすべてのpdfファイルのインデックスを作成します...次に、インデックス作成プロセスの「ログファイルを表示」して、インデックスが作成されていないpdfファイルのリストを確認します。

score -3 · Accepted Answer

非常にローテクな解決策：テキストをスキャンしたファイルには間違いなく文字「a」が含まれるため、文字aie「NOTa」を含まないすべてのファイルコンテンツを検索してください。表示されるファイルはすべてOCRされていません

search - PDFに画像のみが含まれているか、検索のためにOCRスキャンされているかを知るにはどうすればよいですか？

7 に答える 7

Related

Reference