この画像でtesseractを使用しようとしています:
デフォルト構成を使用する場合:
tesseract image.jpg stdout
返します\KD FWOW
。
ご覧のとおり、唯一の間違いは最初の文字L
がバックスラッシュとして認識されていることです
そこで、次の設定で構成ファイルを作成しました/usr/share/tesseract-ocr/tessdata/configs
。
tessedit_char_whitelist ABCDEFGHIJKLMNOPQRSTUWXYZ
目標は、特殊文字ではなく文字だけを認識することです。ただし、この構成でtesseractを実行すると:
tesseract image.jpg stdout letters
結果はXKD FVOIV
で、主に 'W' が 1 文字以上欠落しています。
これは私には意味がありません。ホワイトリストにあるときに W の認識が停止した理由がわかりません。確かに、設定に何かが欠けています。
どうすれば修正できますか?