1

いくつかの画像で光学式文字認識を実行した後、おおよそのテキストが得られます。多くの場合、認識は大きくありません。たとえば、実際のテキスト「DATE」は「DHTE」または「0HTE」になります。基本的に、各行のデータを識別して抽出する必要があるため、完全な認識は必要ありません。日付変更線を識別するのに十分です。レーベンシュタイン編集距離を計算しようとしましたが、残念ながら、これは DATE と TIME に同様の値を与える傾向があります。現時点では、代わりに正規表現を使用してデータ パターンを一致させることができるかどうかを調査しようとしています。

マッチングプロセスを改善する方法/アルゴリズムはありますか? 幸いなことに、私の単語セットはそれほど大きくありません。

(私は ocr に tesseract を使用し、アルゴリズムに groovy/java を使用しています)

4

1 に答える 1

2

これにはかなりクールなアルゴリズムがいくつかあります http://secondstring.sourceforge.net/

これはStringUtils レーベンシュタイン距離の基本的なものです

于 2011-07-10T09:07:19.897 に答える