私はこの件についてかなり迷っています。私はここSOに関するほぼすべての投稿を読んだことがあります。誰かが私を正しい方向に向けてくれれば、とても感謝しています。
PDF があり、そのテキストを抽出したいのですが、単語とスペースだけに関心があります。CGPDFScanner をセットアップしましたが、これはコールバック メソッドです。私が読んだことは、テキストの抽出に関する限り、TJ、Tj、qout(')、および doubleqout(") の 4 つの演算子だけを考慮する必要があるということです。
文字をまとめて単語を形成するか、スペースで区切るかを判断できるように、テキストスペースも追跡する必要があると思います。しかし、私はこれをどのように行う必要があるのか わかりません。
PDF では、すべてのテキストが形式になっています。
[(X)-24.2524(X)-24.2524(X)-24.2524(Y)-24.2524(Y)-24.2524]TJ
しかし、これらの数値が何を意味するのか (PDF 仕様を使用して) 理解できませんでした。SO の誰かが、PDF の仕様を怖がってはいけないと言いましたが、率直に言って、読みやすく、理解しやすいとは思いません。
役に立った PDFKitten コードを調べました。
どんな助けでも大歓迎です。