Pytesserについてはわかりませんが、tesserocrを使用すると複数の言語を指定できます。例えば:
import tesserocr
with tesserocr.PyTessBaseAPI(lang='eng+chi_tra') as api:
api.SetImageFile('eSXSz.jpg')
print api.GetUTF8Text()
# or simply
print tesserocr.file_to_text('eSXSz.jpg', lang='eng+chi_tra')
画像の出力例:
In [8]: print tesserocr.file_to_text('eSXSz.jpg', lang='eng+chi_tra')
Character, Chmese 動m川爬d
胸肌岫馴伽 H枷﹏ P﹏… …
〔Manda‥﹝ 二 Standard C…爬虯
一
口
X慣ng怕ng
最初の例のように一度 API を初期化し、毎回 API を再初期化するのを避けるために、呼び出して (またはオブジェクトを使用して)複数SetImageFile
の画像に再利用する方が効率的であることに注意してください。SetImage
PIL.Image