83

tesseractが検索する文字のセットを制限することは可能ですか(たとえば、文字azのみを検索する)?それは私の結果を大いに改善するでしょう。

4

7 に答える 7

91

tessdata/configs ディレクトリに構成ファイル (例: "letters") を作成します - 通常、/usr/share/tesseract/tessdata/configs
または
/usr/share/tesseract-ocr/tessdata/configs

そして、次の行を構成ファイルに追加します。

tessedit_char_whitelist abcdefghijklmnopqrstuvwxyz

...または [az] が機能するかもしれません。知らない。次に、次のように tesseract を呼び出します。

tesseract input.tif output nobatch letters  

これにより、tesseract が必要な文字のみを認識するように制限されます。

于 2010-06-06T06:08:44.340 に答える
2

Ubuntu 18.04.4 LTS を使用しています。デフォルトの tesseract はバージョン 4 です。ホワイトリストは使用できません。次に、バージョン 5 にアップグレードします。次に、以下のコマンドを使用すると、機能しました。

tesseract sample.jpg stdout -l eng --oem 3 --psm 7
Warning: Invalid resolution 0 dpi. Using 70 instead.
LL £036 GL)

tesseract sample.jpg stdout -l eng --oem 3 --psm 7 -c tessedit_char_whitelist="ABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789"
Warning: Invalid resolution 0 dpi. Using 70 instead.
L4036GL

サンプル.jpg

于 2020-04-11T06:15:32.957 に答える