Tesseract(OCRライブラリ)を使用してiOSアプリケーション(写真を撮ってOCRを実行)を構築していますが、よく書かれた数字と文字(通常のフォントを使用)で非常にうまく機能しています。
私が抱えている問題は、7 セグメント ディスプレイで試してみると、非常に悪い結果になることです。
私の質問は次のとおりです。この問題にどのようにアプローチできるか知っている人はいますか? Tesseract がこれらの文字を認識する方法はありますか?
Tesseract(OCRライブラリ)を使用してiOSアプリケーション(写真を撮ってOCRを実行)を構築していますが、よく書かれた数字と文字(通常のフォントを使用)で非常にうまく機能しています。
私が抱えている問題は、7 セグメント ディスプレイで試してみると、非常に悪い結果になることです。
私の質問は次のとおりです。この問題にどのようにアプローチできるか知っている人はいますか? Tesseract がこれらの文字を認識する方法はありますか?
私も、tesseract に LCD ディスプレイの画像から数字を認識させるのに非常に苦労しました。
ImageMagick で画像を前処理して、セグメント間のギャップを埋めるために垂直方向にわずかにシフトして画像のコピーをオーバーレイすることで、わずかな成功を収めました。
$ composite -compose Multiply -geometry +0+3 foo.tif foo.tif foo2.png
しかし、最終的には、「 7 セグメント光学式文字認識」バイナリが私の救いでした: http://www.unix-ag.uni-kl.de/~auerswal/ssocr/
このコードの作成者である Erik Auerswald に感謝します。
7 セグメント ディスプレイの OCR は試していませんが、文字がコンポーネントに接続されていないために問題が発生している可能性があります。私の経験からすると、Tesseract は切断されたフォントをうまく処理できません。
単純な侵食 (画像の前処理) は、セグメントを接続することで役立つ場合がありますが、歪みが大きくなりすぎないように、テストしてカーネル サイズを調整する必要があります。