machine-learning - Tesseract より多くの OCR を実行すると、文字を学習しているように見えます。学習データを次の使用までに保存するにはどうすればよいですか?

Question

OCR を実行する特定の 10 枚の画像セットがあります。それらはすべて数字です。やや短く、各画像で約 20 桁です。特定のイメージが 1 つあります。最初に実行すると、いくつかの不一致が生じます。ただし、最初に他のテストを実行してからそのテストに戻ると、すべての文字が一致します。

より多くの OCR 操作が実行されるにつれて、Tesseract が文字を学習していると結論付けたいと思います。これは非常に喜ばしいことです。問題は、可能であれば、学習データを保存することです.Tesseractは、次に使用するときにそれを取得することを知っていますか?

score 4 · Accepted Answer

Tesseract 構成ファイルで classify_save_adapted_templates を 1 に設定して、適合したテンプレートを保存し、classify_use_pre_adapted_templates を 1 に設定して、次に Tesseract を実行したときにテンプレートをロードすることができます。

これらのオプションの動作を指定するコードは次のとおりです: http://code.google.com/p/tesseract-ocr/source/browse/trunk/classify/classify.cpp?r=570

machine-learning - Tesseract より多くの OCR を実行すると、文字を学習しているように見えます。学習データを次の使用までに保存するにはどうすればよいですか?

1 に答える 1

Related

Reference