1

私は OCR の目的で Tesseract を使用しており、「fin.user-words」にいくつかの単語を追加しました (新しい単語リストを作成してtessdata/fin.word-dawgを置き換えることは避けたいと思います)。さて、コマンドプロンプトで成功しました:

>tesseract image.png result -l fin TestConfig

TestConfig ( .../tessdata/configsの下にある Tesseract 構成ファイル) は、システム ディクショナリを抑制し、Tesseract に私の単語を強制的にロードさせます。

load_system_dawg F
load_freq_dawg F
user_words_suffix user-words

参照: http://tesseract-ocr.googlecode.com/svn/trunk/doc/tesseract.1.html#_config_files_and_augmenting_with_user_data

Javaでコマンドラインの上記の手順を複製しようとしていますが、Tesseractは構成オプションを無視しているようです。私が使用しているJavaコードの一部は次のとおりです。

public static TestTesseract(BufferedImage image) {
        Tesseract instance = Tesseract.getInstance();
        instance.setLanguage("fin");
        instance.setTessVariable("load_system_dawg", "F");
        instance.setTessVariable("load_freq_dawg", "F");
        instance.setTessVariable("user_words_suffix", "user-words");
        try {
            String result = instance.doOCR(image);
            System.out.println(result);         
        } catch (TesseractException e) {
            System.err.println(e.getMessage());
        }
}

以下は、私が見つけた最も近い質問です。ただし、setConfigsメソッドが見つかりませんでした:

instance.setConfigs(Arrays.asList("bazaar");

Tesseract を強制的にパターンに一致させる (4 桁連続)

4

1 に答える 1

0

このsetConfigメソッドは、Tess4J v1.4 以降で新しく追加されました (ドキュメントを参照)。

instance.setConfigs(Arrays.asList("TestConfig");
于 2015-01-28T13:30:31.077 に答える