PDFBox APIに不満があります。
私はやった:
PDDocument pdfDocument = PDDocument.load(new File("text.pdf"));
PDFTextStripper stripper = new PDFTextStripper();
String s = stripper.getText(pdfDocument);
pdfDocument.close();
しかし、私は
Exception in thread "main" java.lang.NullPointerException
at org.pdfbox.pdmodel.PDPageNode.getAllKids(PDPageNode.java:194)
at org.pdfbox.pdmodel.PDPageNode.getAllKids(PDPageNode.java:182)
at org.pdfbox.pdmodel.PDDocumentCatalog.getAllPages(PDDocumentCatalog.java:226)
at org.pdfbox.util.PDFTextStripper.writeText(PDFTextStripper.java:216)
at org.pdfbox.util.PDFTextStripper.getText(PDFTextStripper.java:149)
at lucene.test.main(test.java:47)
で
String s = stripper.getText(pdfDocument);
理由はまったくわかりません。チュートリアルを使用して PDF を作成するとうまくいきます ( http://pdfbox.apache.org/cookbook/textextraction.html )。しかし、このテキスト抽出はそうではありません。すでにたくさん検索しましたが、何も役に立ちませんでした。
ところで、新しい「pdfbox-1.8.2.jar」が機能しなかったため、「 pdfbox-0.7.3.jar 」を引き続き使用しています。これが理由でしょうか?
助けてくれてありがとう。
PS: "stripper.writeText()" を使用すると、同じエラーが発生します。