このような画像があります(白い背景と黒いテキスト)。ノイズがない場合 (ご覧のとおり: 数直線の上下にノイズが多い)、Tesseract は非常に良好に数を認識できます。
しかし、ノイズがある場合、Tesseract はそれを数値として認識し、結果に数値を追加しようとします。本当に悪いです。Tesseract でノイズを無視するにはどうすればよいですか? コントラストを高めたり、テキストをシャープにするための前処理画像を作成することはできません。これは何の役にも立ちません。
一部のツールが文字列行のみを強調表示できる場合。これは、Tesseract への非常に優れた入力になります。私を助けてください。みんなありがとう。