pdfboxライブラリを使用してpdfファイルからテキストコンテンツを抽出しています。すべてのテキストを抽出できますが、フォントスタイルを抽出する方法が見つかりませんでした。
11707 次
3 に答える
16
これはフォントを抽出する正しい方法ではありません。フォントを読み取るには、PDFページを繰り返し処理し、次のようにフォントを抽出する必要があります。
PDDocument doc = PDDocument.load("C:/mydoc3.pdf");
List<PDPage> pages = doc.getDocumentCatalog().getAllPages();
for(PDPage page:pages){
Map<String,PDFont> pageFonts=page.getResources().getFonts();
}
于 2012-03-02T18:12:11.423 に答える
0
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.util.PDFTextStripper;
public class pdf2box {
public static void main(String args[])
{
try
{
PDDocument pddDocument=PDDocument.load("table2.pdf");
PDFTextStripper textStripper=new PDFTextStripper();
System.out.println(textStripper.getText(pddDocument));
textStripper.getFonts();
pddDocument.close();
}
catch(Exception ex)
{
ex.printStackTrace();
}
}
}
于 2011-08-11T06:00:40.763 に答える
0
File file = new File("sample.pdf");
PDDocument document = PDDocument.load(file);
for (int i = 0; i < document.getNumberOfPages(); ++i)
{
PDPage page = document.getPage(i);
PDResources res = page.getResources();
for (COSName fontName : res.getFontNames())
{
PDFont font = res.getFont(fontName);
System.out.println(font.getName());
}
}
于 2018-07-19T10:41:21.927 に答える