android - Tesseract は英語以外の文字を返します

Question

最近、いくつかのチュートリアルに従って Tesseract をセットアップしましたが、OCR が適切に機能しているかどうかを確認しようとしています。写真を撮ってテキストを取得すると、英語以外の文字が表示されることがあります。それは実際には意味不明のようです。以下に取得した出力の例を投稿しました。

 ; .'—--~_~:~ ear
 .::§—‘.::~__>‘Z~r'.‘ ,::-SES‘:3£a"3'§_“5.E.~ °?®.=_-
 .—_;%~‘=*c§u-5; H =—oc+-»o cn-5 '55:.

私が撮った写真は、このリンクの研究記事の最初のページです。なぜこれが起こっているのかわかりません。tessdata サブディレクトリ内にも eng.traineddata ファイルがあります。

score 1 · Accepted Answer

私の頭に浮かぶ2つのことがあります：

編集にはImageMagicをお勧めします。

1 に答える 1