私は OCR の目的で Tesseract を使用しており、「fin.user-words」にいくつかの単語を追加しました (新しい単語リストを作成してtessdata/fin.word-dawgを置き換えることは避けたいと思います)。さて、コマンドプロンプトで成功しました:
>tesseract image.png result -l fin TestConfig
TestConfig ( .../tessdata/configsの下にある Tesseract 構成ファイル) は、システム ディクショナリを抑制し、Tesseract に私の単語を強制的にロードさせます。
load_system_dawg F
load_freq_dawg F
user_words_suffix user-words
Javaでコマンドラインの上記の手順を複製しようとしていますが、Tesseractは構成オプションを無視しているようです。私が使用しているJavaコードの一部は次のとおりです。
public static TestTesseract(BufferedImage image) {
Tesseract instance = Tesseract.getInstance();
instance.setLanguage("fin");
instance.setTessVariable("load_system_dawg", "F");
instance.setTessVariable("load_freq_dawg", "F");
instance.setTessVariable("user_words_suffix", "user-words");
try {
String result = instance.doOCR(image);
System.out.println(result);
} catch (TesseractException e) {
System.err.println(e.getMessage());
}
}
以下は、私が見つけた最も近い質問です。ただし、setConfigsメソッドが見つかりませんでした:
instance.setConfigs(Arrays.asList("bazaar");