テキストを検索可能にするために余波でOCRされたPDFに変換されたスキャン画像には、通常、「非表示」としてレンダリングされたテキスト部分が含まれています。したがって、画面(または印刷時に紙)に表示されるのは、元の画像のままです。ただし、検索に成功すると、非表示のテキストにあるヒットが強調表示されます。
XPDFから派生したコマンドラインツールpdffonts(.exe)
、pdfinfo(.exe)
およびを確認することをお勧めしますpdftotext(.exe)
。ダウンロードについてはこちらをご覧ください:http ://www.foolabs.com/xpdf/download.html
使用例pdffonts
:
C:\downloads\> pdffonts cisco-ip-phone-7911-guide6.1.pdf
name type emb sub uni object ID
------------------------------------ ----------------- --- --- --- ---------
LGOKFL+Univers-BlackOblique Type 1C yes yes no 13171 0
LGOKGM+Univers-Black Type 1C yes yes no 13172 0
[....]
このPDFは、フォント('name'列で示される)を使用し、それらを埋め込み('emb'列で'yes'で示される)、サブセットフォント('sub'列で'yes'で示される)を使用します。
C:\downloads\> pdffonts examle1.pdf
name type emb sub uni object ID
------------------------------------ ----------------- --- --- --- ---------
Univers-BlackOblique Type 1C yes no no 14 0
Arial TrueType no no no 15 0
このPDFは2つのフォントを使用しています(「名前」列で示されています)。フォント「Universe-BlackOblique」は完全に埋め込まれています(「emb」列の「yes」と「sub」列の「no」で示されます)。フォント「Arial」も使用されますが、埋め込まれていません。
C:\downloads\> pdffonts examle2.pdf
name type emb sub uni object ID
------------------------------------ ----------------- --- --- --- ---------
このPDFは単一のフォントを使用していないため、テキストは埋め込まれていません(したがって、OCRもありません)。
使用例pdftotext
:
C:\downloads\> pdftotext ^
-layout ^
cisco-ip-phone-7911-guide6.1.pdf ^
cisco-ip-phone-7911-guide6.1.txt
これにより、PDFからすべてのテキスト文字列が抽出されます(元のレイアウトとの類似性を維持しようとします)。PDFにテキストがない場合は、OCRがなかったことがわかります...