0

PDFからテキストを抽出しようとしています。Pdf リファレンスは本当に地獄であり、多くの実用的な質問に答えがありません。私の質問は: フォント ディクショナリに /ToUnicode CMap AND /Encoding が含まれている場合、CMap は常にこのフォントで使用されるすべての文字をカバーするというのは本当ですか?フォント?pdfリファレンスの第5.9章はイエスと答えているようですが、私のテストのいくつかはノーと答えているようです。

4

1 に答える 1

1

章 5.9 は正しく、テキスト抽出には ToUnicode Cmap で十分です。問題は、多くの PDF ファイルが PDF 仕様に正しく準拠していないため、テキスト抽出のために独自のヒューリスティックを実装する必要があることです。
PDF 仕様から開始し、次に遭遇した不適合 PDF ファイルに基づいてさまざまな拡張機能を使用してテキスト抽出方法を更新します。

于 2012-06-08T16:05:29.703 に答える