image-processing - より良いOCR結果を得るためのこの分析に基づく画像の分析と変換

Question

私はOCRプロジェクトを持っていますが、テキストが逆さまではなく、かなりまっすぐな画像でのみうまく機能します。（テキストを回転させないで）それで、OCRが逆さまでもどんな種類の画像でも認識できるようにしたいと思います。しかし、私はこの問題を解決するためのアプローチが何であるかわかりません。

文字の線の分析のようなものが必要ですが、それでも線が逆さまになっているかどうかを識別できません。

score 1 · Accepted Answer

OCRエンジンを作成しているのか、それとも使用しているのかわからない。ほとんどの商用OCRエンジンは、ページが上下逆になっている（または90度回転している）ことを検出して自動回転させることができます。たとえば、私の会社のGlyphReaderOCRエンジンはそれを行うことができます。

簡単な解決策の1つは、画像の一部を取得し、認識されたテキストが十分に返されるまで、4つの角度でエンジンを通過させることです。辞書を使用して、返ってきたのが単語と信頼水準であるかどうかを確認し、エンジンが認識されているかどうかを確認できます。

エンジンが信頼水準を報告でき、一定のしきい値を下回って一貫して報告している場合は、停止してドキュメントがローテーションされているかどうかを確認する必要があります。

90および270の場合、ハフ変換により、画像の線が水平か垂直かがわかります。また、水平からわずかに回転しているかどうかもわかるので、それも修正できます。

score 1 · Accepted Answer

あなたが想像できるように、これは単純ではないので、あなたへの私の答えは非常に高いレベルになります。あなたはおそらく、テキストの各文字をセグメント化する、ある種の画像セグメンテーションを行っています。ただし、文字を認識するためには、回転している場合でも、回転不変の特性を持つ特徴ベクトルを使用する必要があります。それをするために何人かの人々が使っています

ゼルニケモーメント

ネオコグニトロンニューラルネットワーク-手書きに広く使用されています

簡単なことではないと思います

score 1 · Accepted Answer

OCRを実行している画像が、複数行にテキストがたくさんある雑誌や本からのものである場合は、ページの回転を見つけることをお勧めします。

おそらくこれを行う最も簡単な方法は、線にハフ変換を適用することです。テキストの各行の間の空きスペースは幅の広い白い線である必要があるため、これは画像の前処理なしで機能する可能性があります。それ以外の場合は、ぼかしを入れるか、「閉じる」モルフォロジー操作を使用して、テキストの行を不透明なブロックにします。

ハフ変換を使用して画像内の線を見つけたら、主回転角（すべての線の平均角度など）を抽出して、元に戻す必要があります。

image-processing - より良いOCR結果を得るためのこの分析に基づく画像の分析と変換

3 に答える 3

Related

Reference