0

PDFBox を使用して PDF 内の単語を検索するプログラムを作成したいと思います。

ここに私の小さなプログラムがあります:

List<String> words ;// List of words 
        PDDocument document = PDDocument.load("D:\\INIT.pdf");              
        PDFTextStripper s = new PDFTextStripper();
        String content = s.getText(document);
        Comparing(content,words);//methode for searching those words on my text
        System.out.println(content);

しかし、テキストなしでPDFを直接見ることは可能getTextですか?

getText文字列を返します.pdfファイルに大きなテキストがある場合、この文字列は同じテキストを保持できますか?テキストが大きく、文字列でサポートされていない場合に使用する別のタイプはありますか????

4

1 に答える 1

1

PDFBox内でこれに対する解決策を見つけていただければ幸いです。

全体のプロセスは、見た目よりもかなり困難です。たとえば、PDF テキストは不連続な断片に分割され、スペースは多くの場合、スペース文字ではなくギャップとして表されます。フラグメントを抽象化することと、人間が読めるテキストと PDF 内の基礎となるフラグメントとの間のリンクを保持することの両方が必要です。それはかなりトリッキーです。

とにかく、PDFBox ABCpdf 内で満足のいく解決策が見つからない場合は、これを行います。たとえば、以下のリンクは、PDF でキーワードを検索して強調表示する方法を示しています。

http://www.websupergoo.com/helppdf9net/source/8-abcpdf.operations/8-textoperation/1-methods/group.htm

私は ABCpdf .NET ソフトウェア コンポーネントに取り組んでいるので、返信には ABCpdf に基づく概念が含まれている可能性があります。それは私が知っていることです。:-)

于 2013-05-14T10:37:13.043 に答える