3

PyTesserと を使ってOCRを学んでいTesseractます。最初のマイルストーンとして、数字だけで構成されるキャプチャを認識するツールを書きたいと思います。いくつかのチュートリアルを読み、そのようなテスト プログラムを作成しました。

from pytesser.pytesser import *
from PIL import Image, ImageFilter, ImageEnhance

im = Image.open("test.tiff")
im = im.filter(ImageFilter.MedianFilter())
enhancer = ImageEnhance.Contrast(im)
im = enhancer.enhance(2)
im = im.convert('1')
text = image_to_string(im)
print "text={}".format(text)

以下の画像でコードをテストしました。しかし、結果は2(T?770. また、他の同様の画像もいくつかテストしましたが、80% の場合、結果は正しくありません。

ここに画像の説明を入力

画像処理に慣れていません。ここで 2 つの質問があります。

  1. PyTesser数字だけを推測するように言うことは可能ですか?

  2. 人間にとってとても読みやすい画像だと思います。数字のみの画像を読み取るのが非常に難しい場合PyTesser、より良い OCR を実行できる代替手段はありますか?

どんなヒントでも大歓迎です。

4

1 に答える 1

1

あなたのコードは大丈夫だと思います。認識でき207770ます。問題はpytesserインストール時です。インTesseractpytesser古くなっています。最新バージョンをダウンロードして、対応するファイルを上書きします。また、編集pytesser.pyして変更します

tesseract_exe_name = 'tesseract'

import os.path
tesseract_exe_name = os.path.join(os.path.dirname(__file__), 'tesseract')
于 2014-06-17T06:34:40.537 に答える