objective-c - OpenCV を使用して、OCR を実行する前にテキストの向きを検出するにはどうすればよいですか?

Question

iOS アプリケーション内で OpenCV を使用しています。一部のテキストに対して OCR を実行したいのですが、まずその方向を決定する必要があります。

OpenCVでそれを行うにはどうすればよいですか?

score 8 · Accepted Answer

Objective-CでOCRを提供せずに質問に答えることができるかどうかはわかりません.OCRライブラリを使用せずに数行のテキストで行うことはほとんどできません.

20 年前、私は (OCR ライブラリを使用せずに) 銀行小切手をリアルタイムで読み取る OCR システムを作成しました。ちなみに直筆サインも認証していました。

小切手は小型の電動銀行小切手スキャナーに (人間のオペレーターによって) ランダムに挿入される可能性があるため、向きを確認するという問題はありました。

すべての銀行が異なるページレイアウトと装飾を使用していたため、(スキャナーが検出しなかった) 磁気インクに依存せずに方向を見つける唯一の方法は、ページの上部にある最初の文字で実際に OCR 認識を試みることでした。 '。

一部の文字は「O」のようにあいまいですが、他のほとんどの文字は画像が反転しているか鏡像化されているかを教えてくれるので、最初の 3 ～ 5 文字を読むだけで問題は解決します (繰り返しがない限り)。

幸運を！

score 4 · Accepted Answer

この回答は更新されました。

テキストの回転角度を検出する必要がある場合は、この記事をご覧ください(ソースコードを共有しています)。

テキストが傾き補正された後、OCR 手順を実行して、その結果を辞書と比較できます。一致率が高い場合は、テキストが適切に回転され、向きが正しくなっていることがわかります。

score 1 · Accepted Answer

私は数週間前に同様の問題に遭遇し、気が散る前に調べ始めたばかりでした. とにかく、離散フーリエ変換を使用して、(ある程度) 目的を達成できます。個々の単語/行のすべての小さな白いギャップが黒い実線に埋められるように画像をぼかすか侵食し (これは、画像から多くの高周波ノイズを除去するのに役立ちます)、画像の DFT を取得し、low-その上にパスまたはバンドパスフィルター (画像サイズに対する目的のフォントサイズに応じた周波数) を適用し、結果のマグニチュードプロットを分析します。少し調査する必要があるか、他の誰かが詳しく説明する必要がありますが、これは間違いなく私が見つけた最良の解決策のように思えました.

私は現在別のプロジェクトを行っていますが、1 週間ほど以内にこれに戻ります。他の誰かがまだ行っていない場合は、詳細をお知らせします。もちろん、この投稿は今ではちょっと古いので、返信がないかもしれませんが（笑）、とにかく将来を見ている他の誰かにとっては良い参考になります.

objective-c - OpenCV を使用して、OCR を実行する前にテキストの向きを検出するにはどうすればよいですか?

4 に答える 4

Related

Reference