PDFBoxは、PDFからテキストを読み取るのに最適なJavaライブラリであると聞きました。そこで、をダウンロードpdfbox-1.7.1.jar
しjempbox-1.7.1.jar
ましfontbox-1.7.1.jar
た(最後の2つが必要かどうかはわかりません)。それらをNetbeansのプロジェクトに追加しました。
彼らのサイトから簡単な例を試してみると:
Document luceneDocument = LucenePDFDocument.getDocument(something)
存在しないためorg.apache.pdfbox.searchengine.lucene
動作しません。私も試してみましpdfbox-1.4.0
たが、同じです。それで、そのクラスをどこで見つけることができますか(私が知らない必要な他のjarはありますか?)、またはpdfからテキストを読み取る他の方法は何ですか?
編集:私はこの古いメールで同じ問題を見つけました; ただし、スレッドは古く、回避策も機能しません。