character - OCRは奇妙な文字を再認識します。なんで？

Question

Tesseract Libs私はここで見たように、tess-twoプロジェクトで、を使用してAndroidアプリケーションを開発するためにOCRを使用しています：http： //gaut.am/making-an-ocr-android-app-using-tesseract/

アプリは正常に動作しましたが、写真のコンテンツとともに返された文字列に、見知らぬ人のキャラクターが含まれている場合があります。例：私はこれを読んでいます：www.caelum.com.brそして次のようなものを受け取ります：r ' . ,wlñzf . 94' kzl 5. vsmNs/.caelumcombr
検索、私はこれを構成しました：baseApi.setVariable("tessedit_char_whitelist", "ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz");
しかし、それは最悪になると思います。

ポルトガル語と英語のテキストを読みたいです。それで、私は各言語の訓練されたデータをダウンロードして、私が望むようにそれを使用しました、しかしこれらの見知らぬ人のキャラクターはエンコーディングプロジェクトと関係がありますか？

手伝ってくれてありがとう：）

score 0 · Accepted Answer

Tesseract は、テキストとテキストのみを含む画像に対してのみテキストを認識します。テキストのみを含む画像は正確に認識され、高い精度も得られます。ただし、Tesseract では、画像とテキストの認識で文字化けした出力が得られます。私はこの認識に取り組んでいないので、これ以上お手伝いできません。

したがって、画像からテキスト部分のみを取得するように画像部分をトリミングする方法について質問する必要があります。そのように、Tesseract は問題なく認識でき、出力で目的のテキストを提供できます。

ありがとう。

character - OCRは奇妙な文字を再認識します。なんで？

1 に答える 1

Related

Reference