10

PDFがテキストを保存する方法をよりよく理解しようとしています。一般的に、PDFがMS Word(または私の場合はSQL Server Reporting Services)のようなアプリケーションから作成される場合、テキストはPDFによってどのように保存されますか?この特定のシナリオでは、元のPDFドキュメントが画像から作成された場合のように、結果のドキュメントがOCRされないことを願っています。

もう少し詳しく説明するために、PDFのテキスト抽出機能がどのように機能するかを理解しようとしています。PDFについての私の最初の理解は、ドキュメントの「画像」をページまたはプリンターに描画する方法に関する(PostScript)命令が格納されており、ドキュメント自体に実際のテキストが含まれていないことでした。その後、テキストエクストラクタがそのような命令をリバースエンジニアリングして、PDFが生成するテキストを生成する可能性があると考えていました。しかし、私はこれに自信がありません。

4

1 に答える 1

11

PDFには、いくつかの異なるタイプのオブジェクトが含まれています。ベクトルまたはラスター描画命令だけではありません。特にテキストは、テキスト要素で表されます。これらには、特定のフォントを使用して特定の位置に描画する必要がある文字列が含まれます。

PDFからのテキスト抽出は、ファイル形式がページレイアウトを対象としているため、複雑な作業になる可能性があります。テキスト要素は、段落全体または単一の文字の場合があります。異なる書体が混在している場合、1つの単語でさえ複数のテキスト要素で構成されている可能性があります。また、文字は必ずしもUnicodeなどの標準エンコーディングでエンコードされているとは限りません。それらは、特定のフォントに固有の方法でエンコードされる場合があります。

幸運にもPDF/APDF/UAなどのタグ付きPDFファイルを処理できる場合は、テキストスパンがそのように識別され、Unicode文字へのマッピングが定義されているため、テキスト抽出がはるかに簡単になります。

ウィキペディアには完全な仕様はありませんが、紹介として機能します:http: //en.wikipedia.org/wiki/Portable_Document_Format#Text

于 2013-03-25T19:06:25.067 に答える