使用している特定の画像のレイアウトを読み取るために作成したOCRプログラムを改良しようとしています。今のところ、OCRプログラムで0〜9の数字のみを認識したいと思います。
私は質問からの解決策に従おうとしました:
しかし、私はtesseractを次のように呼ばなければならない部分で立ち往生しました:
tesseract input.tif output nobatch letters
これはどこに行きますか?
使用している特定の画像のレイアウトを読み取るために作成したOCRプログラムを改良しようとしています。今のところ、OCRプログラムで0〜9の数字のみを認識したいと思います。
私は質問からの解決策に従おうとしました:
しかし、私はtesseractを次のように呼ばなければならない部分で立ち往生しました:
tesseract input.tif output nobatch letters
これはどこに行きますか?
私はPythonを使用して同じ問題を抱えていました、wittesseract3さらに読者がそうするかもしれないと仮定します。
ここから:https ://github.com/tesseract-ocr/tesseract/wiki/FAQ#how-do-i-recognize-only-digits
私は使用に成功しました:
pytesseract.image_to_string(someimage、config ='outputbasedigits')
少し前にSOにtesseractに関するいくつかのことを投稿しました:Tesseract OCRLibrary-LearningFontを参照してください。特に、キャラクターのセットを抑制し、あいまいさを説明する方法を説明する正八胞体トレーニングへのリンクがあります。
そして、これが、tesseractに数字のみを認識させる方法です。
Tesseract 2-Init関数を呼び出す前、またはこれをtessdata / configs /digitsというテキストファイルに入れる前に:
tessedit_char_whitelist 0123456789
次に、コマンドラインは次のようになります。
tesseract image.tif outputbase nobatch digits
Tesseract 3-数字設定ファイルはすでに作成されているので、次のようなtesseractコマンドを実行するだけです。
tesseract imagename outputbase digits
これは、コマンドラインで実行するために使用するコマンドです。
より良い答えを得るには、コマンドラインでtesseractを実行しているのか、ライブラリとして実行しているのかを知る必要があります。