PDFBox ライブラリを使用して PDF ファイルのコンテンツを抽出します。コンテンツは段落ごとに処理する必要があり、各段落について、フォローアップ処理のためにその位置が必要です。次のコードを使用して、入力 PDF のコンテンツ全体を抽出できます。
PDDocument doc = PDDocument.load(file);
PDFTextStripper stripper = new PDFTextStripper();
String txt = stripper.getText(doc);
doc.close();
2 つの問題があります。
- 段落ごとにコンテンツを抽出する方法がわかりません。
- 後続処理 (ハイライトなど) のために段落の位置を保存する方法がわかりません。
ありがとう。