すべてのボックスファイルを使用して文字を抽出しようとしていますが、この行を試してみると
unicharset_extractor *.box
すべてのボックス ファイルをロードする代わりに、*.box が見つからないというエラーが表示されます。
私は最終的にそのための独自のツールを作りました。[リンク] http://code.google.com/p/serak-tesseract-trainer/
その特定のプログラムは、そのような構文をサポートしていません。次のように、すべてのボックス ファイルとフィードの名前を連鎖させる必要があります。
unicharset_extractor lang.fontname.exp0.box lang.fontname.exp1.box ...
プロセスを自動化するスクリプト (例: train.ps1 ) を作成できます。
http://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3