PDFがテキストを保存する方法をよりよく理解しようとしています。一般的に、PDFがMS Word(または私の場合はSQL Server Reporting Services)のようなアプリケーションから作成される場合、テキストはPDFによってどのように保存されますか?この特定のシナリオでは、元のPDFドキュメントが画像から作成された場合のように、結果のドキュメントがOCRされないことを願っています。
もう少し詳しく説明するために、PDFのテキスト抽出機能がどのように機能するかを理解しようとしています。PDFについての私の最初の理解は、ドキュメントの「画像」をページまたはプリンターに描画する方法に関する(PostScript)命令が格納されており、ドキュメント自体に実際のテキストが含まれていないことでした。その後、テキストエクストラクタがそのような命令をリバースエンジニアリングして、PDFが生成するテキストを生成する可能性があると考えていました。しかし、私はこれに自信がありません。