特定の Web CAPTCHA をクラックしようとしています。文字をセグメント化してANNに渡すことでそれを行う予定です(ほとんどの機能については、ノイズを完全に除去するのは難しいと思われるため、瞬間の方法を使用します)
キャプチャは非常にノイズが多く、残念ながらノイズと実際のテキストの間に色の違いがないため、色に基づく分離は機能しません。かなり考えた後、キャプチャのピクセルにフラッド フィル スタイルのアルゴリズムを実装して、切断された小さなコンポーネントを分離することに成功しました。この後、次のような結果になりました。
ほとんどのノイズはなくなりましたが、一部は文字自体の周囲に残っています (テキストに触れているため)。私は画像フィルターの専門家ではありませんが、残っているノイズを減らして文字を強調する適切なフィルターを見つけるのは非常に難しいと感じています. この目的に使用できるフィルターに関するアイデア。
(注:これには画像操作ツール/ライブラリを使用していません。生のピクセル操作コードを書いていますが、畳み込みカーネルがあればほとんどのフィルターを実装できます)
問題は、このノイズが原因で、文字のセグメンテーションが困難になっていることです。ノイズがあり、一部の文字が接触しているため、明らかに暗いピクセルのない垂直線を見つけようとしてもうまくいきません。これらを効率的にセグメント化する方法についてのアイデアはありますか?
編集:元の画像