0

WebサイトのPDFファイルを解析したい。

Grailsを使用してPDFファイルからテキストを(単語ごとに)抽出する方法を誰かが言うことができますか?

4

3 に答える 3

1

その他のオプションには、PDFおよびその他の形式をサポートするApacheTikaとiText含まれます。

Groovy / Grailsで使用するには、Groovy/Grailsで使用する場合と同じように以下のJavaを使用します。

JavaでApachetikaを使用するには、次のことを行う必要があります。

  • tika.apache.orgからtika -app-1.2.jarをダウンロードします
  • このサンプルプログラムをダウンロード する
  • javac -cptika-app-1.2.jarTextExtractor.javaを使用してプログラムをコンパイルします
  • テキストjava-cptika-app-1.2.jar:を抽出します。TextExtractor aPDFFile.pdf

Javaでitextを使用するには、次のようにします。

  • itextpdf-5.3.5.jarをダウンロード
  • 以下をコンパイルします。

    import java.io.IOException;
    
    import com.itextpdf.text.pdf.PdfReader;
    import com.itextpdf.text.pdf.parser.PdfTextExtractor;
    
    public class itextHelloWorld {
    
    
       static void extract(String input) throws IOException{
           String path = input;
           PdfReader reader = new PdfReader(path);
           int numberOfPages = reader.getNumberOfPages();
           for (int i = 0;i<numberOfPages;i++) {
               System.out.println(PdfTextExtractor.getTextFromPage(reader,i+1));
           }
       } 
    
        public static void main(String[] args) throws IOException {
            extract(args[0]);
        }
    }
    
  • java-cpitextpdf-5.3.5.jarでテキストを抽出します。itextHelloWorld aPDFFile.pdf

于 2013-01-11T22:57:08.190 に答える
1

Grails / Groovyについてはわかりませんが、Apache libPDFBoxを使用してプロジェクトのPDFを解析できます。

于 2013-01-11T15:13:28.023 に答える
0

別の選択肢として、私は常にそのようなもののためのAspose製品で成功を収めてきました。Asposeとは何の関係もありません。私は彼らの製品が好きです。

于 2013-01-11T18:16:07.447 に答える