web-applications - Grailsを使用してPDFファイルを読む

Question

WebサイトのPDFファイルを解析したい。

Grailsを使用してPDFファイルからテキストを（単語ごとに）抽出する方法を誰かが言うことができますか？

score 1 · Accepted Answer

その他のオプションには、PDFおよびその他の形式をサポートするApacheTikaとiText が含まれます。

Groovy / Grailsで使用するには、Groovy/Grailsで使用する場合と同じように以下のJavaを使用します。

JavaでApachetikaを使用するには、次のことを行う必要があります。

tika.apache.orgからtika -app-1.2.jarをダウンロードします
このサンプルプログラムをダウンロードする
javac -cptika-app-1.2.jarTextExtractor.javaを使用してプログラムをコンパイルします
テキストjava-cptika-app-1.2.jar：を抽出します。TextExtractor aPDFFile.pdf

Javaでitextを使用するには、次のようにします。

itextpdf-5.3.5.jarをダウンロード

以下をコンパイルします。

import java.io.IOException;

import com.itextpdf.text.pdf.PdfReader;
import com.itextpdf.text.pdf.parser.PdfTextExtractor;

public class itextHelloWorld {


   static void extract(String input) throws IOException{
       String path = input;
       PdfReader reader = new PdfReader(path);
       int numberOfPages = reader.getNumberOfPages();
       for (int i = 0;i<numberOfPages;i++) {
           System.out.println(PdfTextExtractor.getTextFromPage(reader,i+1));
       }
   } 

    public static void main(String[] args) throws IOException {
        extract(args[0]);
    }
}

java-cpitextpdf-5.3.5.jarでテキストを抽出します。itextHelloWorld aPDFFile.pdf

score 1 · Accepted Answer

Grails / Groovyについてはわかりませんが、Apache libPDFBoxを使用してプロジェクトのPDFを解析できます。

score 0 · Accepted Answer

別の選択肢として、私は常にそのようなもののためのAspose製品で成功を収めてきました。Asposeとは何の関係もありません。私は彼らの製品が好きです。

web-applications - Grailsを使用してPDFファイルを読む

3 に答える 3

Related

Reference