ビデオストリームから画像内の数字を認識しなければなりませんが、認識を容易にするいくつかの方法があります:
1) 6x8 の固定フォントで、すべての記号は同じ幅です
2) 数字の正確な位置を知っています。それらは常に長方形です、回転/スクイーズ/スケーリングされていませんが、空気伝送の不具合により、多少の歪みがある場合があります。
3) 数字と のみです。
4) 数字の背景は半黒 (50% 不透明)
私はtesseract v2とv3を試しましたが、.NETラッパーは完璧ではなく、カスタムフォントでトレーニングしたとしても認識エラーが非常に大きかった.
画像を白黒に変換し、元のフォント画像とストリームからの画像の間で一致するピクセルをカウントすることで、自分で非常に単純なアルゴリズムを作成しました。テセラクトよりもパフォーマンスが高くなりますが、より洗練されたアルゴリズムの方がうまくいくと思います。
BackPropagationLearning で ActivationNetwork を使用して AForge をトレーニングしようとしましたが、収束に失敗しました (スケーリングといくつかのフォントが必要ない限り、この記事の最初の部分http://www.codeproject.com/Articles/11285/Neural- Network-OCR、記事のコードは古いバージョンの AForge 用であることを理解しているため)、悪い点は、このプロジェクトがサポートされなくなり、フォーラムが閉鎖され、Google グループも理解していることです。
私が見る限り、.NET への OpenCV ポートがあることは知っていますが、それには AForge とは異なるネットワーク アプローチがあるため、どのアプローチが最適かは疑問です。
では、これを支援する .NET フレームワークはありますか?それが複数のニューラル ネットワークの実装をサポートしている場合、どの実装が最適でしょうか?