ocr - データベースを使用するための gocr の取得

Question

gocr に png 内のテキストを認識させようとしています。以下を使用して gocr を実行します。

gocr -p ../db/ -m 386 output-4.png

-m 386 オプションは認識エンジンをオフにし、man ページに従ってデータベースを拡張します (不明な文字についてユーザーにプロンプトを出し、ユーザーの回答でデータベースを拡張します)。

gocr は、認識できない文字を入力するように促し、その文字が何であるかを伝えます。次に、png から完全な (ほぼ十分な) ドキュメントを生成します。

そこで、次を使用して gocr を再実行します。

gocr -p ../db/ -m 258 output-4.png

ここで -m 258 オプションは文字認識アルゴリズムをオフにし、gocr にデータベースからの文字を照合するように指示します。しかし、今では認識されない文字がたくさん出力されます。データベースのトレーニング後に得たのと同じ出力を生成するべきではありませんか?

アルゴリズムを使用してマッチングをオンにすることはできます (そして、一致が見つからない場合は gocr を取得してデータベースから文字をマッチングさせます) が、「9」を「g」または「0」と識別するなど、多くのエラーが発生します。「お」など。

私が間違っていることを誰かが知っていますか？

score 1 · Accepted Answer

-a 100 フラグを使用して gocr をトレーニングすると、より多くの文字について尋ねられるはずです。それは私のために働いた。そう：

gocr -p ../db/ -m 386 -a 100 output-4.png

1 に答える 1