9

使用している特定の画像のレイアウトを読み取るために作成したOCRプログラムを改良しようとしています。今のところ、OCRプログラムで0〜9の数字のみを認識したいと思います。

私は質問からの解決策に従おうとしました:

tesseractが探している文字を制限する

しかし、私はtesseractを次のように呼ばなければならない部分で立ち往生しました:

tesseract input.tif output nobatch letters  

これはどこに行きますか?

4

4 に答える 4

8

私はPythonを使用して同じ問題を抱えていました、wittesseract3さらに読者がそうするかもしれないと仮定します。

ここから:https ://github.com/tesseract-ocr/tesseract/wiki/FAQ#how-do-i-recognize-only-digits

そしてここ: https ://github.com/madmaze/pytesseract/blob/27fed535bf1eb665ec991313841b177336b50f61/src/pytesseract.py#L91

私は使用に成功しました:

pytesseract.image_to_string(someimage、config ='outputbasedigits')

于 2016-11-14T01:27:47.190 に答える
6

少し前にSOにtesseractに関するいくつかのことを投稿しました:Tesseract OCRLibrary-LearningFontを参照してください。特に、キャラクターのセットを抑制し、あいまいさを説明する方法を説明する正八胞体トレーニングへのリンクがあります。

于 2012-07-03T07:55:24.153 に答える
4

この質問はTesseractFAQで回答されています

そして、これが、tesseractに数字のみを認識させる方法です。

Tesseract 2-Init関数を呼び出す前、またはこれをtessdata / configs /digitsというテキストファイルに入れる前に:

tessedit_char_whitelist 0123456789

次に、コマンドラインは次のようになります。

tesseract image.tif outputbase nobatch digits

Tesseract 3-数字設定ファイルはすでに作成されているので、次のようなtesseractコマンドを実行するだけです。

tesseract imagename outputbase digits
于 2013-11-05T10:55:42.530 に答える
1

これは、コマンドラインで実行するために使用するコマンドです。

より良い答えを得るには、コマンドラインでtesseractを実行しているのか、ライブラリとして実行しているのかを知る必要があります。

于 2012-07-08T17:11:27.613 に答える