私はサイト、特にこれらの2つの画像でocrを実行しています:
私はOCRにかなり慣れていないので、次を使用します。
from PIL import Image
import pytesseract
my_image = '....png'
text = pytesseract.image_to_string(Image.open(my_image))
2 番目の画像では、1 桁の 3、4、5、6 を除くすべてを認識します。
最初の画像では、1 桁も認識されません。
サイズを変更し、反転し、しきい値を使用して、画像を前処理します。
これは標準的なフォントなので、これを行う他の方法があることは知っていますが、ある程度まではうまくいくので、より高度なものに行く前にシンプルに保ちたいと思います.