OCRしたい次の画像があります。
私はこれにTess4Jを使用しており、これらの指示に従いました。
これは私がしようとしているものです:
import java.io.File;
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.ITesseract;
import net.sourceforge.tess4j.TesseractException;
public class Main {
public static void main(String[] args) {
// Perform OCR
// ===========
File imageFile = new File("./CroppedSubtotal.png");
ITesseract instance = new Tesseract(); // JNA Interface Mapping
try {
String result = instance.doOCR(imageFile);
System.out.println("====== Result: " + result);
} catch (TesseractException e) {
System.err.println(e.getMessage());
}
}
}
これを IntelliJ で実行すると、コンソールは次のように返します。
/Library/Java/JavaVirtualMachines/jdk1.7.0_80.jdk ...
====== Result:
Process finished with exit code 0
これを修正するにはどうすればよいですか?
アップデート:
下の画像をOCRするとうまくいきます
ユーロ記号が原因である必要があります。ホワイトリストに追加しようとしましたが、成功しませんでした
instance.setTessVariable("tessedit_char_whitelist", "€0123456789,.");