Tesseract OCR のトレーニング画像のジェネレーターを作成しています。
Tesseract OCR の新しいフォントのトレーニング画像を生成する場合、次の最適な値は何ですか?
- DPI
- ポイント単位のフォントサイズ
- フォントをアンチエイリアスにするかどうか
- 境界ボックスがぴったりと収まるか、そうでないか:
2 番目の質問は、ここで何とか答えられます: http://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3#Generate_Training_Images 複数のサイズでトレーニングする必要はありません。10ポイントで済みます。(これに対する例外は、非常に小さなテキストです。約 15 ピクセルより小さい x 高さのテキストを認識したい場合は、認識を試みる前に、それを具体的にトレーニングするか、画像をスケーリングする必要があります。)
質問 1 と 3: 経験上、300 dpi の画像/非エイリアス フォントをうまく使用できました。より具体的には、満足のいく画像を生成するトレーニング pdf で次の変換パラメーターを使用しました。
convert -density 300 -depth 8 [input].pdf -background white -flatten +matte -compress none -monochrome [output].tif
しかし、Tesseract にドット フォントを追加しようとしたところ、150 dpi の画像を使用した場合にのみ文字が正しく検出されました。したがって、一般的な解決策はないと思います。追加しようとしているフォントの種類によって異なります。
tesseract トレーニングに適したツールhttp://vietocr.sourceforge.net/training.html
メリットが多いので良いツールです
eng.traineddata
ファイルに自動的に結合します。end.traineddata
4 番目の質問に対する答えが見つかりました。「バウンディング ボックスがぴったりと収まるかどうか」です。
可能な限り長方形をフィッティングすると、はるかに良い結果が得られるようです。
@Yaroslavが示唆しているように、他の12ポイントと300 dpiで十分です。アンチエイリアスはオフにしたほうがいいと思います。