圧縮されていないbitonalTIFドキュメント画像がたくさんあります。それらのすべては、中央に透かしがあります。OCRを実行すると、透かしと重なるテキストが認識されません。ある種のクリーンアップを適用してこれらの透かしを削除し、欠落しているテキストを認識できるかどうかを確認しようとしています。
繰り返しになりますが、画像は白黒ですが、透かしを見ると、透かしの文字が通常のテキストよりも「密度が低い」黒と白のピクセルのパターンがあるため、灰色で表示されます。同時に、透かし文字は非常に大きく、通常のテキストよりもはるかに大きくなります。
やや似た画像の例はこれです(これは色であり、私の場合の透かし文字ははるかに太くて大きいです。私の透かしもはるかに短いです:長さはわずか3〜4文字です)
境界線が透かしよりも通常「密」であるため「より黒く」見えることを除いて、画像から大きな黒い境界線を削除するのと同様のクリーンアップフィルターがあるようです。
GIMP、ImageMagick、IrfanViewの3つのツールを自由に使用できます。私を助けるかもしれないこれらのツールのサブセットの特定の機能をお勧めできますか?