0

PDFボックスを使用してPDFドキュメントのページのスナップショットを取得することは可能ですか?キーワードを使用してPDFファイルのページを照合し、そのテキストが見つかったページのスナップショットを表示したいと思います。どこから始めるべきかについて、誰かが私を正しい方向に向けることができますか?これには、C#でLuceneとPDFボックスを使用する予定です。

4

1 に答える 1

1

はい、pdfbox を使用してこれを行うことができます。このようなもの:

pdf = PDDocument.load(inputStream);
// this gets you page 1
byte[] bytes = getImageBytes(pdf, 1);
// write out bytes as an image file

PDFTextStripper.getText() を使用してテキストを抽出できます

など。ただし、xpdf からより良い結果が得られると思います。より成熟しており、より多くの pdf の種類をサポートしています。

于 2013-01-28T22:29:23.847 に答える