PDFボックスを使用してPDFドキュメントのページのスナップショットを取得することは可能ですか?キーワードを使用してPDFファイルのページを照合し、そのテキストが見つかったページのスナップショットを表示したいと思います。どこから始めるべきかについて、誰かが私を正しい方向に向けることができますか?これには、C#でLuceneとPDFボックスを使用する予定です。
質問する
113 次
1 に答える
1
はい、pdfbox を使用してこれを行うことができます。このようなもの:
pdf = PDDocument.load(inputStream);
// this gets you page 1
byte[] bytes = getImageBytes(pdf, 1);
// write out bytes as an image file
PDFTextStripper.getText() を使用してテキストを抽出できます
など。ただし、xpdf からより良い結果が得られると思います。より成熟しており、より多くの pdf の種類をサポートしています。
于 2013-01-28T22:29:23.847 に答える