java - なぜこの画像で正八胞体が失敗するのですか？

Question

ここに画像の説明を入力してください

この画像と、長方形の中にテキストが入ったスキャン画像を試してみました。しかし、出力としていくつかのガベージテキストで毎回失敗します。テキストの周りにボックスなしで修正します。画像や正八胞体をどうするか教えてください。助けてください

score 0 · Accepted Answer

Tesseractは分類前に画像をグレースケールに変換するため、ピンクの線がテキストとして取得されている可能性があります。

画像から黒のピクセルのみを抽出すれば、問題ないはずです。これにはImageMagickを使用できます。

score 0 · Accepted Answer

前に述べたように、OCR を実行する前にピンク色の線を取り除く必要があります (ただし、文字境界としてはまだ有用です)。

グリフを抽出してバイナリ化 (ビットイメージに変換) したら、それに tesseract を使い始めることができます。tesseract は形状抽出アプローチを使用し、辞書のサポートに依存することに注意してください。Hu のような不変モーメントを使用すると、より良い結果 (および処理時間の短縮) が得られる場合があります。

Javaベースのアプローチに興味がある場合は、純粋なJavaでこれを行うOCRライブラリを次に示します（他の言語に移植できます）：

http://sourceforge.net/projects/javaocr/

java - なぜこの画像で正八胞体が失敗するのですか？

2 に答える 2

Related

Reference