android - テキストとしてのiTextAndroidのPDFからの抽出/読み取り

Question

iTextに問題があります。他の人は、iTextはPDF作成専用だと言いますか？また、PDFからテキストを読み取ったり抽出したりすることはできません。本当？

それが本当なら、PDFファイルからテキストを抽出して変数に保存するか、Androidデバイスに表示するために選択できる他のオプションは何ですか？

iTextがPDFからテキストを抽出できる場合、どうすればよいですか？

score 3 · Accepted Answer

iTextはPDFからテキストを抽出できます。これは、新しいPDFを作成し、既存のPDFを操作するためのツールとして始まったのは事実ですが、近年では、テキストの抽出もますます良くなっています。これは明らかに、テキスト抽出に現在のiTextバージョン（5.3.x）を使用する必要があることを意味します。

主なiText開発者であるBrunoLowagieによる本「iTextinAction、第2版」では、第15章で基本的なiTextテキスト抽出について説明しています。この章のサンプルは、iTextSourceforgeSVNリポジトリで入手できます。第15章のサンプル。良い出発点は、ページ全体のテキストを抽出するExtractPageContentSorted2です。

特別な要件がある場合は、テキスト抽出戦略を明示的に定義する開始点としてExtractPageContentSorted1を使用できます。要件に応じて、独自の戦略が必要になります。特定の地域のテキストのみが必要な場合は、ExtractPageContentAreaを参照してください。

iTextのテキスト抽出機能を実際に微調整するには、iTextテキスト抽出APIが追加のユースケースを提供するように拡張されたため、itex-questionメーリングリストアーカイブ（nabble.comなど）を確認する必要があります。

score 1 · Accepted Answer

Use below code to extract text from pdf :


String pat = data.getData().getPath();
File f = new File(pat);
//f is file path of pdf file
read = new PdfReader(new FileInputStream(f));

parser = new PdfReaderContentParser(read);

strw = new StringWriter();

stretegy = parser.processContent(j, new SimpleTextExtractionStrategy());

strw.write(stretegy.getResultantText());

String da = strw.toString();

//set extracted text from pdf file 
//to Edit-text    
edt1.setText(da);

android - テキストとしてのiTextAndroidのPDFからの抽出/読み取り

2 に答える 2

Related

Reference