傷やその他の斑点は、少なくとも特定の色強度ではないピクセルを無視するだけで、かなり簡単にフィルタリングできます。
行を処理するには、次の 3 つのオプションがあります。
最初の重要な質問は、手書きは別の色で書かれていますか? 簡単な解決策は、全員に青または赤のペンを与え、黒のペンの使用を禁止することです。その後、ドキュメントをカラーでスキャンできます。その後、3 つのバッファーすべての代わりに、グリーン バッファーをグレースケール イメージとして簡単に使用できます。これは、これを実装する最も簡単な方法です。現在、ほぼすべてのスキャナーがカラースキャンをサポートしています。
それ以外の場合は、画像内の線を検出できるアルゴリズムを作成する必要があります。これを機能させるには、最初にアルゴリズムを調整して、通常の文字のサイズを最初に把握し、次に文字のサイズを特定する必要があります。 X ピクセルより長い場合は、そこから行を削除します。これは非常に問題があり、うまく機能しません。機能させるために長い時間を費やしますが、それでも 100% になることはありません。
もう 1 つの方法は、OCR を実行した後、エンド ユーザーにデータを提示してデータが正しいことを確認する必要があります。次に、スキャンした画像をエンド ユーザーに提示し、スキャンされた画像が正しくない場合は上書きできるようにすることができます。
3 つの選択肢のうち、最良の選択肢は、請求書に黒いペンで書かないようにすることだと思います。それができない場合は、ドキュメントをできる限りスキャンし、問題のあるフィールドを明確にするためにエンド ユーザーに提供します (ユーザーがドキュメント全体をすべてチェックする必要がないように、問題としてフラグを立てることもできます)。時間)。
編集: 指摘する価値のあることの 1 つは、書かれてから FAX で送信されたドキュメントを受け取った場合、オプション 3 以外のことはほとんどできないということです (最善を尽くしてから、ユーザーに提示します)。