PyTesser
と を使ってOCRを学んでいTesseract
ます。最初のマイルストーンとして、数字だけで構成されるキャプチャを認識するツールを書きたいと思います。いくつかのチュートリアルを読み、そのようなテスト プログラムを作成しました。
from pytesser.pytesser import *
from PIL import Image, ImageFilter, ImageEnhance
im = Image.open("test.tiff")
im = im.filter(ImageFilter.MedianFilter())
enhancer = ImageEnhance.Contrast(im)
im = enhancer.enhance(2)
im = im.convert('1')
text = image_to_string(im)
print "text={}".format(text)
以下の画像でコードをテストしました。しかし、結果は2(T?770
. また、他の同様の画像もいくつかテストしましたが、80% の場合、結果は正しくありません。
画像処理に慣れていません。ここで 2 つの質問があります。
PyTesser
数字だけを推測するように言うことは可能ですか?人間にとってとても読みやすい画像だと思います。数字のみの画像を読み取るのが非常に難しい場合
PyTesser
、より良い OCR を実行できる代替手段はありますか?
どんなヒントでも大歓迎です。