pdf - PDF からテキストを抽出するとき、フォントに ToUnicode マッピングがある場合、エンコーディングを気にする必要がありますか?

Question

PDFからテキストを抽出しようとしています。Pdf リファレンスは本当に地獄であり、多くの実用的な質問に答えがありません。私の質問は: フォントディクショナリに /ToUnicode CMap AND /Encoding が含まれている場合、CMap は常にこのフォントで使用されるすべての文字をカバーするというのは本当ですか?フォント？pdfリファレンスの第5.9章はイエスと答えているようですが、私のテストのいくつかはノーと答えているようです。

score 1 · Accepted Answer

章 5.9 は正しく、テキスト抽出には ToUnicode Cmap で十分です。問題は、多くの PDF ファイルが PDF 仕様に正しく準拠していないため、テキスト抽出のために独自のヒューリスティックを実装する必要があることです。
PDF 仕様から開始し、次に遭遇した不適合 PDF ファイルに基づいてさまざまな拡張機能を使用してテキスト抽出方法を更新します。

pdf - PDF からテキストを抽出するとき、フォントに ToUnicode マッピングがある場合、エンコーディングを気にする必要がありますか?

1 に答える 1

Related

Reference