スキャンしたパスポート画像からデータを抽出したい。
画像操作プロセスに PIL を使用し、画像をテキストに変換するために pytesseract を使用しています。
私の問題は、必要なものが得られないことです..Sの代わりに5が得られます..そして、このようなことです。
問題は pytesseract ではなく、 PIL にあると思います。画像をうまくフィルタリングしていないからです。
誰かが画像から黒いピクセルだけを抽出するのを手伝ってくれますか?
または、最良の結果を得るためにどのフィッターを使用できるかについて、誰かがアドバイスを手伝ってくれませんか. ありがとうございました!私はこれを試していました:
#!/usr/bin/python
# -*- coding: utf-8 -*-
import pytesseract
import requests
from PIL import Image
from PIL import ImageFilter
from StringIO import StringIO
def process_image(url):
image = _get_image(url)
image = image.filter(ImageFilter.SHARPEN)
# image = image.convert('1')
print pytesseract.image_to_string(image)
def _get_image(url):
return Image.open(StringIO(requests.get(url).content))
process_image('https://upload.wikimedia.org/wikipedia/commons/3/3f/Polish_passport_biodata_page.png')