pdf - Tess4J doOCR() for First Page pdf / tif

翻译自：https://stackoverflow.com/questions/26512141 2014-10-22T16:14:20.713

1368 次

特定の量のページ/文字のみをOCRするようにTess4Jに指示する方法はありますか?

200ページ以上のPDFを扱う可能性がありますが、実際には最初のページだけをOCRしたいのです。

私の知る限り、一般的なサンプル

package net.sourceforge.tess4j.example;

import java.io.File;
import net.sourceforge.tess4j.*;

    public class TesseractExample {

        public static void main(String[] args) {
            File imageFile = new File("eurotext.tif");
            Tesseract instance = Tesseract.getInstance();  // JNA Interface Mapping
            // Tesseract1 instance = new Tesseract1(); // JNA Direct Mapping

            try {
                String result = instance.doOCR(imageFile);
                System.out.println(result);
            } catch (TesseractException e) {
                System.err.println(e.getMessage());
            }
        }
    }

200 以上のページ全体を 1 つの文字列に OCR しようとします。

私の特定のケースでは、それは私がする必要があるよりもはるかに多く、200以上のページすべてを実行させてから最初の500ページ程度だけを実行させると、非常に長い時間がかかるのではないかと心配しています.substring

pdf - Tess4J doOCR() for *First Page* pdf / tif

1 に答える 1

Related

Reference

pdf - Tess4J doOCR() for First Page pdf / tif