0

中国語のPDF形式のテキストを検索したい。CGPDFScannerを使用しています。CIDFontType2で正しいテキストを取得できません。

フォントオブジェクトにToUnicodeエントリがあります

fontNameはHFKAAO+LinGothic-太字

名前IDのエントリがありCIDToGIDMapます(PDFドキュメントによるとTrueTypeフォントプログラムが埋め込まれていることを意味します)

CIDSystemInfo
レジストリはアドビです
注文はアイデンティティです

FlateDecodeを使用したFontDescriptorFilterにFontFile2エントリがあります

Tjから取得したテキストを膨らませただけなのに、うまくいかないという人がいます... zlibを使用してテキストを膨らませましたが、正しいデータが生成されていないようです。

勉強できるサンプルコードはありますか?

https://github.com/KurtCode/PDFKittenを見つけましたが、中国語では機能しません。

4

1 に答える 1

0

問題が見つかりました

CMap を使用して文字列フォーム Tj を変換するだけです

CMap をデコードするコードにバグがあります

バグを修正したら、すべて問題ありません

ありがとう〜

于 2012-05-04T06:29:27.243 に答える