python - PDF が検索可能かどうかをプログラムで判断するにはどうすればよいですか?

Question

PDF を含む URL のリストを含む CSV があります。

これらの PDF の一部は検索可能です。
これらの PDF の一部は検索できません。

PDF のリストから検索可能な PDF を特定したいと考えています。これを行う簡単な方法はありますか？

score 9 · Accepted Answer

コマンドラインではpdffonts、ファイルが使用するフォントを決定するために使用します。これもかなり高速に実行されます...

例 1: テキストを含む PDF

pdffonts bash-manpage.pdf
  
  名前 タイプ エンコーディング emb サブユニ オブジェクト ID
  ------------------------------- ------------- ------ --------- --- --- --- ---------
  Times-Roman Type 1 Custom no no no 8 0
  Times-Bold Type 1 標準 no no no 9 0
  Helvetica Type 1 Custom no no no 11 0
  Helvetica-Bold Type 1 標準 no no no 30 0

例 2: 画像のみを含む PDF

pdfフォントscanned-book.pdf
  
  pdfフォントhandmade.pdf
  名前 タイプ エンコーディング emb サブユニ オブジェクト ID
  ------------------------------- -------------- ----- --------- --- --- --- ---------

例 1 は、フォント名を含むテーブルを示しています。これは、検索するテキストが存在することを意味します。
例 2 は、空のテーブルを示しています。フォントも検索対象のテキストもありません (ファイルに対して OCR を実行して見つかったテキストを最初に埋め込む場合を除きます...ただし、別のファイルを作成したことになります!)、これらを振り返らないでください...

注:埋め込まれたテキストを実際に抽出して検索できるようにすることは、まったく別の問題です。非常に困難な場合が多くあります。特に、「カスタム」エンコーディングのようなフォントの種類がフォントの表にある場合はCID Typeそうです。最初に、PDF からのテキスト抽出について尋ねられた他の質問について、 stackoverflow を検索することをお勧めします...

python - PDF が検索可能かどうかをプログラムで判断するにはどうすればよいですか?

1 に答える 1

例 1: テキストを含む PDF

例 2: 画像のみを含む PDF

Related

Reference