python - tesseractに数字のみを認識させる

Question

使用している特定の画像のレイアウトを読み取るために作成したOCRプログラムを改良しようとしています。今のところ、OCRプログラムで0〜9の数字のみを認識したいと思います。

私は質問からの解決策に従おうとしました：

しかし、私はtesseractを次のように呼ばなければならない部分で立ち往生しました：

tesseract input.tif output nobatch letters

これはどこに行きますか？

score 8 · Accepted Answer

私はPythonを使用して同じ問題を抱えていました、wittesseract3さらに読者がそうするかもしれないと仮定します。

私は使用に成功しました：

pytesseract.image_to_string（someimage、config ='outputbasedigits'）

score 6 · Accepted Answer

少し前にSOにtesseractに関するいくつかのことを投稿しました：Tesseract OCRLibrary-LearningFontを参照してください。特に、キャラクターのセットを抑制し、あいまいさを説明する方法を説明する正八胞体トレーニングへのリンクがあります。

score 4 · Accepted Answer

そして、これが、tesseractに数字のみを認識させる方法です。

Tesseract 2-Init関数を呼び出す前、またはこれをtessdata / configs /digitsというテキストファイルに入れる前に：

tessedit_char_whitelist 0123456789

次に、コマンドラインは次のようになります。

tesseract image.tif outputbase nobatch digits

Tesseract 3-数字設定ファイルはすでに作成されているので、次のようなtesseractコマンドを実行するだけです。

tesseract imagename outputbase digits

score 1 · Accepted Answer

これは、コマンドラインで実行するために使用するコマンドです。

より良い答えを得るには、コマンドラインでtesseractを実行しているのか、ライブラリとして実行しているのかを知る必要があります。

4 に答える 4