0

私のインスタンスはCGPDFScanner、テストpdfファイルをスキャンしています。

ある時点で、現在のフォント ディクショナリにはEncodingvalueとkeyIdentity-Hを持つ ディクショナリがあります。このキーはたまたまストリーム値用であり、その辞書にはキーがあります。このキーの値は です。FontDescriptorFontFile2FilterFlateDecode

これを解釈して使用する方法がわかりません (たとえば、次のTjブロックのテキストを Unicode に抽出するため)。たとえば、次のTjブロックのバイトを zlib 解凍するだけですか? (ToUnicodeここに鍵はありません。)

すべての解凍は のインスタンスによって実行されると思っていましたCGPDFScanner

4

1 に答える 1

0

フォントが Identity-H エンコーディングを使用していて、ToUnicode エントリがない場合、テキストを抽出できません。Tj 演算子のパラメーターはグリフ インデックスのシーケンスであり、このシーケンスは ToUnicode エントリがないとテキストに変換できません。

FontFile2 エントリには、実際のフォント ファイルが格納されます。PDF ファイルからテキストを抽出する際には何の役割も果たしません。

于 2011-05-18T10:29:59.823 に答える