WebサイトのPDFファイルを解析したい。
Grailsを使用してPDFファイルからテキストを(単語ごとに)抽出する方法を誰かが言うことができますか?
WebサイトのPDFファイルを解析したい。
Grailsを使用してPDFファイルからテキストを(単語ごとに)抽出する方法を誰かが言うことができますか?
その他のオプションには、PDFおよびその他の形式をサポートするApacheTikaとiTextが含まれます。
Groovy / Grailsで使用するには、Groovy/Grailsで使用する場合と同じように以下のJavaを使用します。
JavaでApachetikaを使用するには、次のことを行う必要があります。
Javaでitextを使用するには、次のようにします。
以下をコンパイルします。
import java.io.IOException;
import com.itextpdf.text.pdf.PdfReader;
import com.itextpdf.text.pdf.parser.PdfTextExtractor;
public class itextHelloWorld {
static void extract(String input) throws IOException{
String path = input;
PdfReader reader = new PdfReader(path);
int numberOfPages = reader.getNumberOfPages();
for (int i = 0;i<numberOfPages;i++) {
System.out.println(PdfTextExtractor.getTextFromPage(reader,i+1));
}
}
public static void main(String[] args) throws IOException {
extract(args[0]);
}
}
java-cpitextpdf-5.3.5.jarでテキストを抽出します。itextHelloWorld aPDFFile.pdf
Grails / Groovyについてはわかりませんが、Apache libPDFBoxを使用してプロジェクトのPDFを解析できます。
別の選択肢として、私は常にそのようなもののためのAspose製品で成功を収めてきました。Asposeとは何の関係もありません。私は彼らの製品が好きです。