特定のパターンのみに一致するように (Tess4J ラッパーを使用して) Tesseract を取得しようとしています。パターンは 4 桁の数字で、\d\d\d\d になると思います。これは、私がtesseractに供給している画像の非常に小さなサブセットです(フロアプランは制限されているため、もっと多くを投稿するように注意しています):http://mike724.com/view/a06771
次のJavaコードを使用しています:
File imageFile = new File("/<redacted>/file.pdf");
Tesseract instance = Tesseract.getInstance();
instance.setTessVariable("load_system_dawg", "F");
instance.setTessVariable("load_freq_dawg", "F");
instance.setTessVariable("user_words_suffix", "");
instance.setTessVariable("user_patterns_suffix", "\\d\\d\\d\\d");
try {
String result = instance.doOCR(imageFile);
System.out.println(result);
} catch (TesseractException e) {
System.err.println(e.getMessage());
}
私が直面している問題は、tesseract がこれらの構成オプションを尊重していないように見えることです。結果にはまだテキスト/単語が含まれています。部屋番号 (例: 2950) のみを取得する予定です。