このサイトhttp://www.searchable-pdf.com/content.php?lang=en&c=61によると、テキストレイヤーを追加するとPDFを検索できます。
PDFの技術仕様を探していました。テキストは2つの方法でPDFに保存できると思います:a)画像レイヤーの上のテキストレイヤーとして(上記のWebページで説明されているように)b)Wordドキュメント(テキスト付き)からPDFを作成する場合、私はしません。 Wordはすべてのテキストをテキストレイヤーに保存すると思います。画像レイヤーに保存されると思いますか?右?
PDF 1.4以降、XMPが追加されました(http://en.wikipedia.org/wiki/Extensible_Metadata_Platform)。しかし、XMPとは何ですか?これは私が上で議論した「テキストレイヤー」ですか?
スキャナーが画像に対してOCRを実行している場合、テキストは「テキストレイヤー」に保存されていますか?または「XMP」フィールド?これは、PDFがバージョン1.4の場合にのみ発生しますか?
また、PDFにすでにテキストデータが含まれているかどうかをどのように検出できますか?例:PDF AはOCRでスキャンされましたが、PDFBはスキャンされていません。PDF Bを別のOCRエンジンに送信する必要があることをどのように知ることができますか?