pdf - スナップショット付きの全文検索エンジン

Question

PDFボックスを使用してPDFドキュメントのページのスナップショットを取得することは可能ですか？キーワードを使用してPDFファイルのページを照合し、そのテキストが見つかったページのスナップショットを表示したいと思います。どこから始めるべきかについて、誰かが私を正しい方向に向けることができますか？これには、C＃でLuceneとPDFボックスを使用する予定です。

score 1 · Accepted Answer

はい、pdfbox を使用してこれを行うことができます。このようなもの：

pdf = PDDocument.load(inputStream);
// this gets you page 1
byte[] bytes = getImageBytes(pdf, 1);
// write out bytes as an image file

PDFTextStripper.getText() を使用してテキストを抽出できます

など。ただし、xpdf からより良い結果が得られると思います。より成熟しており、より多くの pdf の種類をサポートしています。

pdf - スナップショット付きの全文検索エンジン

1 に答える 1

Related

Reference