1

最近、いくつかのチュートリアルに従って Tesseract をセットアップしましたが、OCR が適切に機能しているかどうかを確認しようとしています。写真を撮ってテキストを取得すると、英語以外の文字が表示されることがあります。それは実際には意味不明のようです。以下に取得した出力の例を投稿しました。

 ; .'—--~_~:~ ear
 .::§—‘.::~__>‘Z~r'.‘ ,::-SES‘:3£a"3'§_“5.E.~ °?®.=_-
 .—_;%~‘=*c§u-5; H =—oc+-»o cn-5 '55:.

私が撮った写真は、このリンクの研究記事の最初のページです。なぜこれが起こっているのかわかりません。tessdata サブディレクトリ内にも eng.traineddata ファイルがあります。

4

1 に答える 1

1

私の頭に浮かぶ2つのことがあります:

  • 画像で使用されているフォントの tesseract をトレーニングする
  • 事前に画像を編集する
    • グレースケール
    • サイズ変更
    • 拡張する
    • スムージング
    • ガウスぼかし
    • ... 等々

編集にはImageMagicをお勧めします。

于 2013-07-23T06:48:06.597 に答える