iTextに問題があります。他の人は、iTextはPDF作成専用だと言いますか?また、PDFからテキストを読み取ったり抽出したりすることはできません。本当?
それが本当なら、PDFファイルからテキストを抽出して変数に保存するか、Androidデバイスに表示するために選択できる他のオプションは何ですか?
iTextがPDFからテキストを抽出できる場合、どうすればよいですか?
iTextはPDFからテキストを抽出できます。これは、新しいPDFを作成し、既存のPDFを操作するためのツールとして始まったのは事実ですが、近年では、テキストの抽出もますます良くなっています。これは明らかに、テキスト抽出に現在のiTextバージョン(5.3.x)を使用する必要があることを意味します。
主なiText開発者であるBrunoLowagieによる本「iTextinAction、第2版」では、第15章で基本的なiTextテキスト抽出について説明しています。この章のサンプルは、iTextSourceforgeSVNリポジトリで入手できます。第15章のサンプル。良い出発点は、ページ全体のテキストを抽出するExtractPageContentSorted2です。
特別な要件がある場合は、テキスト抽出戦略を明示的に定義する開始点としてExtractPageContentSorted1を使用できます。要件に応じて、独自の戦略が必要になります。特定の地域のテキストのみが必要な場合は、ExtractPageContentAreaを参照してください。
iTextのテキスト抽出機能を実際に微調整するには、iTextテキスト抽出APIが追加のユースケースを提供するように拡張されたため、itex-questionメーリングリストアーカイブ(nabble.comなど)を確認する必要があります。
Use below code to extract text from pdf :
String pat = data.getData().getPath();
File f = new File(pat);
//f is file path of pdf file
read = new PdfReader(new FileInputStream(f));
parser = new PdfReaderContentParser(read);
strw = new StringWriter();
stretegy = parser.processContent(j, new SimpleTextExtractionStrategy());
strw.write(stretegy.getResultantText());
String da = strw.toString();
//set extracted text from pdf file
//to Edit-text
edt1.setText(da);