PDFBoxは、PDFからテキストを読み取るのに最適なJavaライブラリであると聞きました。そこで、をダウンロードpdfbox-1.7.1.jarしjempbox-1.7.1.jarましfontbox-1.7.1.jarた(最後の2つが必要かどうかはわかりません)。それらをNetbeansのプロジェクトに追加しました。
彼らのサイトから簡単な例を試してみると:
Document luceneDocument = LucenePDFDocument.getDocument(something)
存在しないためorg.apache.pdfbox.searchengine.lucene動作しません。私も試してみましpdfbox-1.4.0たが、同じです。それで、そのクラスをどこで見つけることができますか(私が知らない必要な他のjarはありますか?)、またはpdfからテキストを読み取る他の方法は何ですか?
編集:私はこの古いメールで同じ問題を見つけました; ただし、スレッドは古く、回避策も機能しません。