特定の量のページ/文字のみをOCRするようにTess4Jに指示する方法はありますか?
200ページ以上のPDFを扱う可能性がありますが、実際には最初のページだけをOCRしたいのです。
私の知る限り、一般的なサンプル
package net.sourceforge.tess4j.example;
import java.io.File;
import net.sourceforge.tess4j.*;
public class TesseractExample {
public static void main(String[] args) {
File imageFile = new File("eurotext.tif");
Tesseract instance = Tesseract.getInstance(); // JNA Interface Mapping
// Tesseract1 instance = new Tesseract1(); // JNA Direct Mapping
try {
String result = instance.doOCR(imageFile);
System.out.println(result);
} catch (TesseractException e) {
System.err.println(e.getMessage());
}
}
}
200 以上のページ全体を 1 つの文字列に OCR しようとします。
私の特定のケースでは、それは私がする必要があるよりもはるかに多く、200以上のページすべてを実行させてから最初の500ページ程度だけを実行させると、非常に長い時間がかかるのではないかと心配しています.substring