7

問題

私は (非常に) シンプルな OCR エンジンを構築してきました。非常に小さい (ピクセル サイズ) 文字を分類しようとしているので、セグメンテーションに問題があります。以下は、ベスト エフォート型の画像全体のしきい値処理後の例です。

問題のあるセグメンテーションの画像 63:

私が試したこと

エラー検出:

  • セグメントの大きな水平サイズ。ほとんどの場合は機能しますが、いくつかの大きな文字では失敗します (誤検知)。
  • 分類し、低いスコアで拒否します。これは少し無駄に思えます。

エラー訂正:

  • 垂直方向にピクセルを追加し (垂直ヒストグラム)、最小値を見つけます。多くのサンプルで、間違った場所で多くのセグメントをカットします。

まだ試していないこと

  • 考えられるすべてのセグメンテーション ポイント (ピクセル) で分類しようとしています。これは非常に無駄が多く、3 文字のマージ セグメントを拡張するのは困難です。
  • 文字を数学的曲線に変換するための形態学的アプローチについて調べてきましたが、どこから始めればよいか、または努力する価値があるかどうかはわかりません

ここからどこへ行く?

何も思いつきません。したがって、この質問:)

4

2 に答える 2

6

仰向けになり、目を半分閉じます。

63 :-)

さて、コンピューターにとってこれほど簡単だったらいいのに!

これは、シリコン マスクでダブル パターニングが行う (または元に戻す) ことに非常に近いものです。

オーバーサンプリング (各軸のピクセル数を 2 倍または 4 倍にする)、フィルタリング (おそらくローパス、またはパスバンド = ラインの空間周波数であるバンドパス)、それらが分離するまで再しきい値を設定することをお勧めします。高価なので、問題のある領域にのみ適用してください。

于 2012-12-22T11:29:23.383 に答える
3

問題を再発明して、セグメンテーションが不要になるようにします。

本当に、この規模では、他のアプローチに投資したほうがよいと思います。たとえば、テキストを OCR する場合 (そうですか?)、行の情報 (文字の高さ) を使用できます。小さい(まだ読める)文字に使用できるフォントは多くありません。私のアプローチは、スキャンラインのラインをスキャンし(左から右に、上から下にピクセルを取得)、トレーニングされたテキストとスキャンライン(n、n-1 ... nx)の間の相関関係を見つけようとするアルゴリズムです。

また、おそらくグレースケール レベルの情報も必要になるため、画像にしきい値を設定しない方がよいでしょう。

于 2012-12-22T16:25:46.637 に答える