0

ここに画像の説明を入力してください

この画像と、長方形の中にテキストが入ったスキャン画像を試してみました。しかし、出力としていくつかのガベージテキストで毎回失敗します。テキストの周りにボックスなしで修正します。画像や正八胞体をどうするか教えてください。助けてください

4

2 に答える 2

0

Tesseractは分類前に画像をグレースケールに変換するため、ピンクの線がテキストとして取得されている可能性があります。

画像から黒のピクセルのみを抽出すれば、問題ないはずです。これにはImageMagickを使用できます。

于 2012-12-05T08:02:13.157 に答える
0

前に述べたように、OCR を実行する前にピンク色の線を取り除く必要があります (ただし、文字境界としてはまだ有用です)。

グリフを抽出してバイナリ化 (ビット イメージに変換) したら、それに tesseract を使い始めることができます。tesseract は形状抽出アプローチを使用し、辞書のサポートに依存することに注意してください。Hu のような不変モーメントを使用すると、より良い結果 (および処理時間の短縮) が得られる場合があります。

Javaベースのアプローチに興味がある場合は、純粋なJavaでこれを行うOCRライブラリを次に示します(他の言語に移植できます):

http://sourceforge.net/projects/javaocr/

于 2012-12-05T08:13:25.840 に答える