15

このサイトhttp://www.searchable-pdf.com/content.php?lang=en&c=61によると、テキストレイヤーを追加するとPDFを検索できます。

PDFの技術仕様を探していました。テキストは2つの方法でPDFに保存できると思います:a)画像レイヤーの上のテキストレイヤーとして(上記のWebページで説明されているように)b)Wordドキュメント(テキスト付き)からPDFを作成する場合、私はしません。 Wordはすべてのテキストをテキストレイヤーに保存すると思います。画像レイヤーに保存されると思いますか?右?

PDF 1.4以降、XMPが追加されました(http://en.wikipedia.org/wiki/Extensible_Metadata_Platform)。しかし、XMPとは何ですか?これは私が上で議論した「テキストレイヤー」ですか?

スキャナーが画像に対してOCRを実行している場合、テキストは「テキストレイヤー」に保存されていますか?または「XMP」フィールド?これは、PDFがバージョン1.4の場合にのみ発生しますか?

また、PDFにすでにテキストデータが含まれているかどうかをどのように検出できますか?例:PDF AはOCRでスキャンされましたが、PDFBはスキャンされていません。PDF Bを別のOCRエンジンに送信する必要があることをどのように知ることができますか?

4

2 に答える 2

12

PDF仕様には、「テキストレイヤー」についての言及はありません。通常、テキストを「保存」する方法は1つだけです。それは、演算子を示すテキストを使用することです。これらの演算子は、特定の色、フォント、フォントサイズ、およびテキストレンダリングモードを使用して、特定の場所にテキストを描画します。いくつかのテキストレンダリングモードがあります。質問に答えるために、テキストは表示または非表示にすることができます。

OCRを実行するスキャナーは、ラスター画像とテキストの両方をPDFドキュメントにレンダリングします。テキストは、非表示のテキストレンダリングモードを使用してレンダリングされます。その結果、マウスを使用してテキストを選択し(強調表示された領域が画像の上の予想される位置に表示されます)、テキストを検索できます。この場合も、検索結果は正しい場所に表示されます。

Word文書からPDFを生成するとどうなるかは、変換に使用するソフトウェアによって異なります。私の知る限り、これらのコンバーターは画像を生成しませんが、目に見えるテキストを生成します。

XMPは、ビジュアルデータではなくメタデータです。

最後に、PDFにテキストデータがあるかどうかの検出に関する質問に関して、同様の質問があります(10kのみ)

于 2012-07-10T14:44:37.320 に答える
7

フランク・レムの答えは「完全」なので、私は賛成しました。

ただし、いくつかの詳細を追加しましょう。

  1. テキストの「不可視性」は、PDFTrテキストレンダリングモード3演算子である「テキストの塗りつぶしもストロークもなし」 (PDF-1.7仕様、第9.3.6章)に由来します。
  2. このスーパーユーザーの質問を見てください:「Ghostscriptを実行した後、PDFにはすべての単語に余分な空白があります」と私の答えは技術的な詳細についてさらにいくつか学ぶためにあります(特に「どうすればいいですか?非表示のテキストを表示しますか?」)。
于 2012-07-10T17:45:09.173 に答える