最近、いくつかのチュートリアルに従って Tesseract をセットアップしましたが、OCR が適切に機能しているかどうかを確認しようとしています。写真を撮ってテキストを取得すると、英語以外の文字が表示されることがあります。それは実際には意味不明のようです。以下に取得した出力の例を投稿しました。
; .'—--~_~:~ ear
.::§—‘.::~__>‘Z~r'.‘ ,::-SES‘:3£a"3'§_“5.E.~ °?®.=_-
.—_;%~‘=*c§u-5; H =—oc+-»o cn-5 '55:.
私が撮った写真は、このリンクの研究記事の最初のページです。なぜこれが起こっているのかわかりません。tessdata サブディレクトリ内にも eng.traineddata ファイルがあります。