pdf - 検索可能なPDFからテキストオーバーレイにアクセスすることは可能ですか？

Question

PDFとテキスト検索可能なPDFには違いがあることを理解しています。テキスト検索可能なPDFには、検索に使用されるテキストオーバーレイがあります。このテキストオーバーレイをtxtファイルに抽出することは可能ですか？おそらくAdobeAPIを使用しますか？

score 20 · Accepted Answer

「サーチャブル PDF」は正式な定義ではありませんが、よく使われる表現です。

標準の PDF に使用するすべてのフォントが埋め込まれていて、これらのフォントがカスタムエンコーディングを使用していない場合、そのフォントは「検索可能」である可能性があります。つまり、そこからテキストをコピーして貼り付けたり、抽出したりできます。それからのテキスト（およびツールのようなツールはpdftotext多かれ少なかれ完璧に機能します）。これは「テキストオーバーレイ」とは関係ありません。これは PDF の標準的なアーキテクチャです。

「テキストオーバーレイ」とは、スキャンしたPDFに追加できるものです。スキャンから作成された PDF は、(通常は空の) PDF ページに埋め込まれた全ページ画像 (通常は TIFF) です。次に、追加のステップで、OCR (光学式文字認識) を実行して「テキストオーバーレイ」を追加します。これにより、それ以外の場合は愚かな「ピクセルのみ」の PDF に「検索可能性」が提供されます。

このような「テキストオーバーレイ」を含む PDF で、フォントの周囲に変な構造が使用されていない場合、このテキストを *.txt ファイルに抽出するのは簡単です。結局のところ、画像のみの PDF に対して OCR を実行する目的は、「検索可能な」テキストを追加することです。

インストールpdftotext(Linux、Unix、Windows、Mac OS X で利用可能) してから実行してみてください:
```
pdftotext -layout some-input.pdf  some-input.txt
```

警告、ほとんどの OCR は完全には機能しません。すべての文字の認識率が 99% だった場合は、ラッキーです。(しかし、これは、すべての単語の約 10% とすべての文の約 100% にエラーが含まれていることを意味します。これは、高校で確実に失敗するようなものです...)

3また、これらの「テキストオーバーレイ」は、技術的には PDF の他のテキストセクションと同じであることに注意してください (ただし、より多くのスペルや文法の誤りが含まれています :-)。「テキストを塗りつぶすことも線を引くこともありません (非表示)。」 「非表示」ですが、これらのテキストセクションを強調表示したり、コピーして貼り付けたり、抽出したりできます。

pdf - 検索可能なPDFからテキストオーバーレイにアクセスすることは可能ですか？

1 に答える 1

Related

Reference