問題タブ [cgpdfscanner]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
150 参照

ios - PDF のスキャン中に CGPDFStringGetBytePtr が正しくない文字列を返す

PDF が 1 つあり、CGPDFScanner を使用して PDF をスキャンしようとしています。PDF のスキャン中に「ファイル」という単語が検出されると、CGPDFStringGetBytePtr API は「\x02le」を返します。PDF には Type1 フォントがあり、ToUnicodeMapping(CMap) はありません。エンコーディング ディクショナリが PDF に存在しないため、NSUTF8String エンコーディングを使用します。ただし、すべての NSMacOSRomanStringEncoding、NSASCIIStringEncoding を試しましたが、うまくいきませんでした。何が問題になる可能性がありますか?

ありがとう。

0 投票する
1 に答える
382 参照

ios - CGPDFScanner - スキャン中の \x15 文字

5 ページのテキストをpdfで抽出しようとしています。
PDFには、マッピング(CMap)またはエンコーディング(デフォルトのエンコーディングまたは/Differences)さえも持たないフォントYLJAAA + CMSY10があります。
テキストの抽出中に、文字列「tetex package」の後に CGPDFScanner が何度も遭遇する「\x15」文字を返します。
この文字が検出された場合、現在のフォントは上記のフォントであり、pdf 文字列からテキストを抽出するものは何もありません。この \x15 文字は何ですか?

ありがとう。

0 投票する
1 に答える
237 参照

parsing - PDFフォント演算子の解析がありません

PDF ファイルを解析していますが、Tf 演算子が欠落しているようです。Acrobat ReaderPreviewなどの PDF リーダーでは、フォントが変更されていることがわかります。しかし、解析中は Tf 演算子がありません。前のテキスト ブロックの終了を示す ET 演算子と、新しいテキスト ブロックの開始を示す BT 演算子がまだあります。オペレーター Tj & co. を示すテキストもあります。

明確にするために、私は Tf 演算子を持っていますが、1 か所だけにあるはずですが、そうではありません。

PDFリファレンスには次のように記載されています:

フォントまたはサイズの初期値はありません。テキストが表示される前に、Tf を使用して明示的に指定する必要があります。

Tf オペレーターがない場合、それらのリーダーがテキストを正しくレンダリングする方法がわかりません。

誰かが問題の原因を知っていますか?

0 投票する
0 に答える
350 参照

swift - PDFテキストを迅速に取得する.

PDFページからテキストを取得しようとしましたが、成功しませんでした。

私は試します:

'ET'、'BT'、... コールバックが起動されますが、val は常に 'nil' です。ページ上のすべてのテキストを取得したいだけです。

ありがとう...