8

PDFとテキスト検索可能なPDFには違いがあることを理解しています。テキスト検索可能なPDFには、検索に使用されるテキストオーバーレイがあります。このテキストオーバーレイをtxtファイルに抽出することは可能ですか?おそらくAdobeAPIを使用しますか?

4

1 に答える 1

20

「サーチャブル PDF」は正式な定義ではありませんが、よく使われる表現です。

標準の PDF に使用するすべてのフォントが埋め込まれていて、これらのフォントがカスタム エンコーディングを使用していない場合、そのフォントは「検索可能」である可能性があります。つまり、そこからテキストをコピーして貼り付けたり、抽出したりできます。それからのテキスト(およびツールのようなツールはpdftotext多かれ少なかれ完璧に機能します)。これは「テキスト オーバーレイ」とは関係ありません。これは PDF の標準的なアーキテクチャです。

「テキスト オーバーレイ」とは、スキャンしたPDFに追加できるものです。スキャンから作成された PDF は、(通常は空の) PDF ページに埋め込まれた全ページ画像 (通常は TIFF) です。次に、追加のステップで、OCR (光学式文字認識) を実行して「テキスト オーバーレイ」を追加します。これにより、それ以外の場合は愚かな「ピクセルのみ」の PDF に「検索可能性」が提供されます。

このような「テキスト オーバーレイ」を含む PDF で、フォントの周囲に変な構造が使用されていない場合、このテキストを *.txt ファイルに抽出するのは簡単です。結局のところ、画像のみの PDF に対して OCR を実行する目的は、「検索可能な」テキストを追加することです。

  • インストールpdftotext(Linux、Unix、Windows、Mac OS X で利用可能) してから実行してみてください:

    pdftotext -layout some-input.pdf  some-input.txt
    

警告、ほとんどの OCR は完全には機能しません。すべての文字の認識率が 99% だった場合は、ラッキーです。(しかし、これは、すべての単語の約 10% とすべてのの約 100% にエラーが含まれていることを意味します。これは、高校で確実に失敗するようなものです...)

3また、これらの「テキスト オーバーレイ」は、技術的には PDF の他のテキスト セクションと同じであることに注意してください (ただし、より多くのスペルや文法の誤りが含まれています :-)。「テキストを塗りつぶすことも線を引くこともありません (非表示)。」 「非表示」ですが、これらのテキスト セクションを強調表示したり、コピーして貼り付けたり、抽出したりできます。

于 2012-10-04T23:43:51.557 に答える