java - Tikaで大きなpdfからテキストを抽出する

Question

大きなpdfからテキストを抽出しようとしましたが、最初のページしか取得できません。すべてのテキストを文字列変数に渡す必要があります。

これがコードです

public class ParsePDF {
    public static void main(String args[]) throws Exception {


    try {

      File file = new File("C:/vlarge.pdf");

      String content = new Tika().parseToString(file);

      System.out.println("The Content: " + content);

        }
        catch (Exception e) {
          e.printStackTrace();
        }
    }
}

score 2 · Accepted Answer

Javadocから:

予期しない過剰なメモリ使用を避けるために、返される文字列には、入力ドキュメントから抽出された最初の文字が最大 getMaxStringLength() まで含まれます。この制限を調整するには、setMaxStringLength(int) メソッドを使用します。

呼び出すsetMaxStringLength(-1)と、この制限が無効になります。

score 1 · Accepted Answer

apache api TIKAを試してください。大きなPDFでも機能します。

サンプル：

        InputStream input = new FileInputStream("sample.pdf");
        ContentHandler handler = new BodyContentHandler(Integer.MAX_VALUE);
        Metadata metadata = new Metadata();
        new PDFParser().parse(input, handler, metadata, new ParseContext());
        String plainText = handler.toString();
        System.out.println(plainText);

java - Tikaで大きなpdfからテキストを抽出する

2 に答える 2

Related

Reference