1

まず第一に、私の悪い英語でごめんなさい。

PDFページのヘッダーとフッターを削除しようとしています。ページ分割でいくつかの単語を検索する必要がありますが、ヘッダーとフッターでは不可能なので、トリミングしてからトリミングする必要があります。単語を検索するのが「可能」であるよりもテキストに変換します。

している:

PDDocument pdDoc = PDDocument.load("document.pdf");

PDPage page = (PDPage) pdDoc.getDocumentCatalog().getAllPages().get(0);

PDRectangle rectangle = new PDRectangle();
rectangle.setUpperRightY(page.findCropBox().getUpperRightY() - 100);
rectangle.setLowerLeftY(page.findCropBox().getLowerLeftY());
rectangle.setUpperRightX(page.findCropBox().getUpperRightY());
rectangle.setLowerLeftX(page.findCropBox().getLowerLeftX());

page.setMediaBox(rectangle);

PDDocument document = new PDDocument();
document.addPage(page);
document.save("newDocument.pdf");
document.close();

しかし、HTMLに変更すると、非表示にされていたテキストが盗まれます。トリミングされた領域なしでそれを保存し、HTMLに正しく変換する方法はありますか?

ありがとう。よろしくお願いします。

4

0 に答える 0