objective-c - NSStringのPDFからテキストを取得する

Question

PDFファイルからプレーンテキストを抽出してに表示するiOSアプリを作成しようとしていますUITextView。pdfファイルを表示するのは単にpdfリーダーではありませんが、後でそのテキストに対して特定の操作を実行したいと思います。私はすでにたくさんグーグルで検索しましたが、それでも正確な解決策を得ることができません。

私はすでにhttps://github.com/zachron/pdfiphoneを使用しようとしましたが、ファイルはxcode4.5では廃止されたように見えるARMV6アーキテクチャを使用しています

そして、誰かがiOSのQuartz-2dフレームワークを使用して、正確で紛らわしくないコードを提案できれば、それは素晴らしいことです。

score 2 · Accepted Answer

これがPDFからテキストを抽出するためのサンプルコードです。これがお役に立てば幸いです。

https://github.com/zachron/pdfiphone

これは、iPhone用のPDFからテキストを取得するためのライブラリです。

OCRテクノロジーを使用する別のデモがあります。以下のリンクを見つけてください

https://github.com/nolanbrown/Tesseract-iPhone-Demo

また、Quartz2Dプログラミングガイドのこのページを確認してください。iOSでPDFファイルを開いて解析するために必要なすべてが網羅されています。全文を1行で抽出する方法がないため、これは簡単な作業ではないことに注意してください。データを入力ストリームとして処理する必要があります。CGPDFScanner

他の2つのライブラリ

score 2 · Accepted Answer

この質問は常に出てきます。一般に、PDF からテキストを抽出するのは非常に困難です。PDF 仕様は、テキスト抽出を考慮して設計されていません。基本的に、個々のグリフの幾何学的配置からテキストを再構築することによって、仕事をしようとする多くのライブラリがあります。これらのライブラリの成功の度合いはさまざまですが、特定の PDF ドキュメントではすべて失敗します。実際、一部の PDF ドキュメントにはグリフがありますが、グリフを文字に関連付ける方法がありません。これらのドキュメントでは、何らかの OCR アプローチを使用しない限り、テキストを抽出することはできません。

PDF は、PDF ドキュメントがどのプラットフォームでも同じようにレンダリングされるという意味で移植可能な読み取り専用形式として設計されています。それはそれが最も得意とすることであり、それが何のために使用されるべきかです。

テキストを編集する場合は、PDF を使用しないでください。

score 0 · Accepted Answer

ここ (objective-c を使用して pdf からテキストを抽出する)で、あなたの質問に対する回答が見つかりました。しかし、私がそれを必要とするほどうまくはありません:(

asciiのみを抽出できます
それは私に1つの段落だけを返します

幸運を。

objective-c - NSStringのPDFからテキストを取得する

3 に答える 3

Related

Reference