この画像でtesseractを使用しようとしています:
デフォルト構成を使用する場合:
tesseract image.jpg stdout
返します\KD FWOW。
ご覧のとおり、唯一の間違いは最初の文字Lがバックスラッシュとして認識されていることです
そこで、次の設定で構成ファイルを作成しました/usr/share/tesseract-ocr/tessdata/configs。
tessedit_char_whitelist ABCDEFGHIJKLMNOPQRSTUWXYZ
目標は、特殊文字ではなく文字だけを認識することです。ただし、この構成でtesseractを実行すると:
tesseract image.jpg stdout letters
結果はXKD FVOIVで、主に 'W' が 1 文字以上欠落しています。
これは私には意味がありません。ホワイトリストにあるときに W の認識が停止した理由がわかりません。確かに、設定に何かが欠けています。
どうすれば修正できますか?
