algorithm - OCR 単語区切り

Question

OCR システムを開発していて、単語の分割について助けが必要です。

現在、OCR システムは一列に並んだブロブを検出します (連結成分ラベリングアルゴリズムを使用)。各ブロブは個別の文字を表し、周囲にバウンディングボックスがあります。一部の文字は、バウンディングボックスで重なる場合があります。

それらの文字を単語に結合するにはどうすればよいですか? 単語を互いに分離する最適な距離を決定する方法: 1. 単語が切断されない 2. 単語が他の単語に結合されない私が見たものから - 文字と単語の間の距離は異なる場合があります多く。

この部分は文字分類の前に行われるため、実際の単語の意味で区切ることはできません。

ありがとうございました！

score 1 · Accepted Answer

ピクセルの各垂直列のヒストグラムを取得すると、おそらく、単語間の分離が最も低い傾向にあることがわかります。文字自体の前に単語区切り文字を処理することを主張する場合は、ある種のバイナリ分類子と組み合わせたこのような手法は、おそらく良い出発点です。(たとえば、このヒストグラムを使用して、コーパス内の単語の平均長を比較検討できます。)

参照: http://www.ijcaonline.org/rtipr/number1/SPE96T.pdf

score 0 · Accepted Answer

まずは文字を読んでみたいと思います。これにより、単語の末尾を調べる (言語に依存する) ツールを使用して、末尾に到達したことを確認できます。この情報により、「空白」の検出にバイアスがかかり、語尾の品質が向上します。精度を高めるという追加の用途もあります - 実際、間違っているときに自信を持って知るのに役立ちます ;)

空白は扱いが難しく、私が知っている API の大部分 (私たちのものを含む) は、空白の量に関係なく 1 文字の空白を返します。表形式でレイアウトされた情報 (たとえば、アドレスブロックが左上と右上にある文字) を処理しようとしている場合、通常、2 つのデータセットの間に 1 つのスペースが入ります。もちろん、各キャラクターの位置を保存すると、後処理に役立ちます。

幸運を！

algorithm - OCR 単語区切り

2 に答える 2

Related

Reference