3

さまざまなエンジンからの出力が与えられた場合に最適な OCR 結果を決定することに関するいくつかの質問を見てきましたが、その答えは通常、「最適なエンジンを選択する」です。ただし、一時的なオクルージョンや一時的な失敗の可能性があるテキスト画像のいくつかのフレームをキャプチャしたいと考えています。私はpython-tesseractでtesseract-ocrを使用しています。

最後の N フレームの OCR 出力を考慮して、最良の結果を判断したいと思います (簡単にするために、行ごとに)。

たとえば、N=3 の場合、メディアン フィルタリングを使用できます。

ABXD
XBCX
AXCD

3人中2人が同じ場合は多数決なのでABCDとなります。ただし、文字列のサイズが異なると、それほど簡単ではありません。特定のサイズ M を期待する場合 (価格テーブルをスキャンする場合、行は通常 XX.XX です)、M より大きい文字列に対して常にペナルティを課すことができます。

数値の場合、メディアン フィルタリング (コンピューター ビジョンでの単純なバックグラウンド減算) や最小平均二乗適応フィルタリングが非常にうまく機能します。似たような文字の問題もありlます1。フォントによっては非常に似ている場合があります。

また、各弦間の弦間距離を使用することも考えていました。たとえば、他の文字列との距離の合計が最小の文字列を選択します。

以前にこの種の問題に対処した人はいますか? この種の問題について知っておくべき既知のアルゴリズムはありますか?

4

1 に答える 1

3

この問題は多重配列アラインメントと呼ばれ、ここで読むことができます

于 2012-03-29T19:31:32.493 に答える