6

私のソフトウェアは、固定長の手書きの数字を読み取る必要があります。

Tesseractのような汎用ライブラリを使用することもできますが、もっとスマートなものがあると確信しています。Tesseractはおそらく1または7の一部をIまたはlと誤解しますが、数字のみを期待するソフ​​トウェアはそうではありません。

数字(アメリカ英語の書き方)しかないことを知っているので、アルゴリズムは数百の記号ではなく、10の潜在的な一致に焦点を合わせることができます。

手書きの数字のみのフィールドをOCRした経験はありますか?
どのオープンソースライブラリ/ソフトウェアで最高の結果が得られましたか?

4

1 に答える 1

5

TesseractのFAQから:

数字だけを認識するにはどうすればよいですか?

2.03以降:

使用する

TessBaseAPI::SetVariable("tessedit_char_whitelist", "0123456789");

Init関数を呼び出すtessdata/configs/digits、またはこれを次のテキストファイルに入れる前に:

tessedit_char_whitelist 0123456789

次に、コマンドラインは次のようになります。

tesseract image.tif outputbase nobatch digits

警告:古い構成変数と新しい構成変数がマージされるまでは、パラメーターも必要です。nobatch

しかし、手書きではなく印刷されたテキスト用に設計されているため、数字だけでも精度が低下する可能性があると思います。

于 2010-04-01T07:12:27.127 に答える