この画像と、長方形の中にテキストが入ったスキャン画像を試してみました。しかし、出力としていくつかのガベージテキストで毎回失敗します。テキストの周りにボックスなしで修正します。画像や正八胞体をどうするか教えてください。助けてください
質問する
2566 次
2 に答える
0
Tesseractは分類前に画像をグレースケールに変換するため、ピンクの線がテキストとして取得されている可能性があります。
画像から黒のピクセルのみを抽出すれば、問題ないはずです。これにはImageMagickを使用できます。
于 2012-12-05T08:02:13.157 に答える
0
前に述べたように、OCR を実行する前にピンク色の線を取り除く必要があります (ただし、文字境界としてはまだ有用です)。
グリフを抽出してバイナリ化 (ビット イメージに変換) したら、それに tesseract を使い始めることができます。tesseract は形状抽出アプローチを使用し、辞書のサポートに依存することに注意してください。Hu のような不変モーメントを使用すると、より良い結果 (および処理時間の短縮) が得られる場合があります。
Javaベースのアプローチに興味がある場合は、純粋なJavaでこれを行うOCRライブラリを次に示します(他の言語に移植できます):
于 2012-12-05T08:13:25.840 に答える