PDF を含む URL のリストを含む CSV があります。
- これらの PDF の一部は検索可能です。
- これらの PDF の一部は検索できません。
PDF のリストから検索可能な PDF を特定したいと考えています。これを行う簡単な方法はありますか?
コマンドラインではpdffonts
、ファイルが使用するフォントを決定するために使用します。これもかなり高速に実行されます...
pdffonts bash-manpage.pdf 名前 タイプ エンコーディング emb サブユニ オブジェクト ID ------------------------------- ------------- ------ --------- --- --- --- --------- Times-Roman Type 1 Custom no no no 8 0 Times-Bold Type 1 標準 no no no 9 0 Helvetica Type 1 Custom no no no 11 0 Helvetica-Bold Type 1 標準 no no no 30 0
pdfフォントscanned-book.pdf pdfフォントhandmade.pdf 名前 タイプ エンコーディング emb サブユニ オブジェクト ID ------------------------------- -------------- ----- --------- --- --- --- ---------
例 1 は、フォント名を含むテーブルを示しています。これは、検索するテキストが存在することを意味します。
例 2 は、空のテーブルを示しています。フォントも検索対象のテキストもありません (ファイルに対して OCR を実行して見つかったテキストを最初に埋め込む場合を除きます...ただし、別のファイルを作成したことになります!)、これらを振り返らないでください...
注:埋め込まれたテキストを実際に抽出して検索できるようにすることは、まったく別の問題です。非常に困難な場合が多くあります。特に、「カスタム」エンコーディングのようなフォントの種類がフォントの表にある場合はCID Type
そうです。最初に、PDF からのテキスト抽出について尋ねられた他の質問について、 stackoverflow を検索することをお勧めします...