algorithm - ドキュメント画像からノイズを取り除く

Question

スキャンした請求書を自動的に処理するプロジェクトに取り組んでいます。OCRエンジンの結果を良くするために、まず画像からノイズを除去したいと思います。傷のほかに、印刷後にドキュメントに追加されたものはすべて削除したいと思います。多くの請求書がチェックされており、OCRで請求書の一部が読めなくなることがあります。

たとえば、この画像を見てください。2番目の項目の説明は読めないので、そのような「ノイズ」を取り除きたいと思います。

では、どうすればそのような手書きの領域を削除し、その下に印刷されたテキストの高品質を維持するにはどうすればよいでしょうか。

score 4 · Accepted Answer

傷やその他の斑点は、少なくとも特定の色強度ではないピクセルを無視するだけで、かなり簡単にフィルタリングできます。

行を処理するには、次の 3 つのオプションがあります。

最初の重要な質問は、手書きは別の色で書かれていますか? 簡単な解決策は、全員に青または赤のペンを与え、黒のペンの使用を禁止することです。その後、ドキュメントをカラーでスキャンできます。その後、3 つのバッファーすべての代わりに、グリーンバッファーをグレースケールイメージとして簡単に使用できます。これは、これを実装する最も簡単な方法です。現在、ほぼすべてのスキャナーがカラースキャンをサポートしています。
それ以外の場合は、画像内の線を検出できるアルゴリズムを作成する必要があります。これを機能させるには、最初にアルゴリズムを調整して、通常の文字のサイズを最初に把握し、次に文字のサイズを特定する必要があります。 X ピクセルより長い場合は、そこから行を削除します。これは非常に問題があり、うまく機能しません。機能させるために長い時間を費やしますが、それでも 100% になることはありません。
もう 1 つの方法は、OCR を実行した後、エンドユーザーにデータを提示してデータが正しいことを確認する必要があります。次に、スキャンした画像をエンドユーザーに提示し、スキャンされた画像が正しくない場合は上書きできるようにすることができます。

3 つの選択肢のうち、最良の選択肢は、請求書に黒いペンで書かないようにすることだと思います。それができない場合は、ドキュメントをできる限りスキャンし、問題のあるフィールドを明確にするためにエンドユーザーに提供します (ユーザーがドキュメント全体をすべてチェックする必要がないように、問題としてフラグを立てることもできます)。時間）。

編集: 指摘する価値のあることの 1 つは、書かれてから FAX で送信されたドキュメントを受け取った場合、オプション 3 以外のことはほとんどできないということです (最善を尽くしてから、ユーザーに提示します）。

score 1 · Accepted Answer

これは複雑な信号処理タスクであり、手書きのメモと印刷されたテキストを区別するいくつかの品質 (たとえば、マークの幅、印刷されたテキストと比較した手書きのメモの曲率、またはたぶんインクの色合いさえ）。

おそらく探しているよりも多くの情報がありますが、不要なマークを除外するように学習アルゴリズムをトレーニングすることもできます.

algorithm - ドキュメント画像からノイズを取り除く

2 に答える 2

Related

Reference