テキストの抽出に Apache pdfbox を使用しています。PDFからテキストを抽出できますが、単語が太字かどうかを知る方法がわかりませんか??? (コードの提案は良いでしょう!!!)正常に機能しているpdfからプレーンテキストを抽出するためのコードを次に示します。
PDDocument document = PDDocument
.load("/home/lipu/workspace/MRCPTester/test.pdf");
document.getClass();
if (document.isEncrypted()) {
try {
document.decrypt("");
} catch (InvalidPasswordException e) {
System.err.println("Error: Document is encrypted with a password.");
System.exit(1);
}
}
// PDFTextStripperByArea stripper = new PDFTextStripperByArea();
// stripper.setSortByPosition(true);
PDFTextStripper stripper = new PDFTextStripper();
stripper.setStartPage(1);
stripper.setEndPage(2);
stripper.setSortByPosition(true);
String st = stripper.getText(document);