2

iTextに問題があります。他の人は、iTextはPDF作成専用だと言いますか?また、PDFからテキストを読み取ったり抽出したりすることはできません。本当?

それが本当なら、PDFファイルからテキストを抽出して変数に保存するか、Androidデバイスに表示するために選択できる他のオプションは何ですか?

iTextがPDFからテキストを抽出できる場合、どうすればよいですか?

4

2 に答える 2

3

iTextはPDFからテキストを抽出できます。これは、新しいPDFを作成し、既存のPDFを操作するためのツールとして始まったのは事実ですが、近年では、テキストの抽出もますます良くなっています。これは明らかに、テキスト抽出に現在のiTextバージョン(5.3.x)を使用する必要があることを意味します。

主なiText開発者であるBrunoLowagieによる本「iTextinAction、第2版」では、第15章で基本的なiTextテキスト抽出について説明しています。この章のサンプルは、iTextSourceforgeSVNリポジトリで入手できます。第15章のサンプル。良い出発点は、ページ全体のテキストを抽出するExtractPageContentSorted2です。

特別な要件がある場合は、テキスト抽出戦略を明示的に定義する開始点としてExtractPageContentSorted1を使用できます。要件に応じて、独自の戦略が必要になります。特定の地域のテキストのみが必要な場合は、ExtractPageContentAreaを参照してください。

iTextのテキスト抽出機能を実際に微調整するには、iTextテキスト抽出APIが追加のユースケースを提供するように拡張されたため、itex-questionメーリングリストアーカイブ(nabble.comなど)を確認する必要があります。

于 2012-10-22T06:50:37.260 に答える
1
Use below code to extract text from pdf :


String pat = data.getData().getPath();
File f = new File(pat);
//f is file path of pdf file
read = new PdfReader(new FileInputStream(f));

parser = new PdfReaderContentParser(read);

strw = new StringWriter();

stretegy = parser.processContent(j, new SimpleTextExtractionStrategy());

strw.write(stretegy.getResultantText());

String da = strw.toString();

//set extracted text from pdf file 
//to Edit-text    
edt1.setText(da);
于 2015-11-16T12:57:58.427 に答える