1

PDFファイルからプレーンテキストを抽出してに表示するiOSアプリを作成しようとしていますUITextView。pdfファイルを表示するのは単にpdfリーダーではありませんが、後でそのテキストに対して特定の操作を実行したいと思います。私はすでにたくさんグーグルで検索しましたが、それでも正確な解決策を得ることができません。

私はすでにhttps://github.com/zachron/pdfiphoneを使用しようとし ましたが、ファイルはxcode4.5では廃止されたように見えるARMV6アーキテクチャを使用しています

そして、誰かがiOSのQuartz-2dフレームワークを使用して、正確で紛らわしくないコードを提案できれば、それは素晴らしいことです。

4

3 に答える 3

2

これがPDFからテキストを抽出するためのサンプルコードです。これがお役に立てば幸いです

https://github.com/zachron/pdfiphone

これは、iPhone用のPDFからテキストを取得するためのライブラリです。

OCRテクノロジーを使用する別のデモがあります。以下のリンクを見つけてください

https://github.com/nolanbrown/Tesseract-iPhone-Demo

また、Quartz2Dプログラミングガイドのこのページを確認してください。iOSでPDFファイルを開いて解析するために必要なすべてが網羅されています。全文を1行で抽出する方法がないため、これは簡単な作業ではないことに注意してください。データを入力ストリームとして処理する必要があります。CGPDFScanner

他の2つのライブラリ

  1. https://github.com/KurtCode/PDFKitten/
  2. https://github.com/mobfarm/FastPdfKit
于 2012-12-26T07:25:12.773 に答える
2

この質問は常に出てきます。一般に、PDF からテキストを抽出するのは非常に困難です。PDF 仕様は、テキスト抽出を考慮して設計されていません。基本的に、個々のグリフの幾何学的配置からテキストを再構築することによって、仕事をしようとする多くのライブラリがあります。これらのライブラリの成功の度合いはさまざまですが、特定の PDF ドキュメントではすべて失敗します。実際、一部の PDF ドキュメントにはグリフがありますが、グリフを文字に関連付ける方法がありません。これらのドキュメントでは、何らかの OCR アプローチを使用しない限り、テキストを抽出することはできません。

PDF は、PDF ドキュメントがどのプラットフォームでも同じようにレンダリングされるという意味で移植可能な読み取り専用形式として設計されています。それはそれが最も得意とすることであり、それが何のために使用されるべきかです。

テキストを編集する場合は、PDF を使用しないでください。

于 2016-02-25T04:22:38.653 に答える
0

ここ (objective-c を使用して pdf からテキストを抽出する)で、あなたの質問に対する回答が見つかりました。しかし、私がそれを必要とするほどうまくはありません:(

  • asciiのみを抽出できます
  • それは私に1つの段落だけを返します

幸運を。

于 2014-10-17T11:46:52.897 に答える