Tesseract (V3.03 rc1) を使用して特定のテキスト文字列を識別するアプリケーションを構築しました。残念ながら、これらはカスタム フォントで印刷されているため、独自のトレーニング済みデータ ファイルを作成する必要があります。iOS (インスピレーションのために https://github.com/gali8/Tesseract-OCR-iOS を使用) と Android (インスピレーションのために https://github.com/rmtheis/tess-two/ を使用) の両方でアプリケーションを構築しました。良い)。
両方のプラットフォームのワークフローは次のとおりです。
プレビュー画面で、関連するテキストをトリミングできる境界ボックスを選択し、それに応じて画像をトリミングします。
OpenCV を使用してバイナリ イメージを取得します (両方のプラットフォームで同じパラメーターを持つ OpenCV の適応しきい値関数を使用)
このバイナリ イメージを Tesseract に渡します。両方のプラットフォーム (Android と iOS) は、同じトレーニング済みデータ ファイルを使用します。
それでも、iOS はテキスト文字列を完全に認識しますが、Android は特定の文字 (S は 6、H は同様) を誤認し続けます。
両方のプラットフォームで、同じホワイト リスト文字列を使用し、load_type_dawg と load_system_dawg を無効にし、ブロブの選択を保存することも選択します。
誰もこのような状況に遭遇したことがありますか? iOS で自動的に処理される Android の設定がありませんか? Android について特に頭に浮かばないことはありますか?
ご意見やアドバイスをいただければ幸いです。