groovy - あいまい文字列一致

Question

いくつかの画像で光学式文字認識を実行した後、おおよそのテキストが得られます。多くの場合、認識は大きくありません。たとえば、実際のテキスト「DATE」は「DHTE」または「0HTE」になります。基本的に、各行のデータを識別して抽出する必要があるため、完全な認識は必要ありません。日付変更線を識別するのに十分です。レーベンシュタイン編集距離を計算しようとしましたが、残念ながら、これは DATE と TIME に同様の値を与える傾向があります。現時点では、代わりに正規表現を使用してデータパターンを一致させることができるかどうかを調査しようとしています。

マッチングプロセスを改善する方法/アルゴリズムはありますか? 幸いなことに、私の単語セットはそれほど大きくありません。

(私は ocr に tesseract を使用し、アルゴリズムに groovy/java を使用しています)

score 2 · Accepted Answer

これにはかなりクールなアルゴリズムがいくつかあります http://secondstring.sourceforge.net/

これはStringUtils レーベンシュタイン距離の基本的なものです

groovy - あいまい文字列一致

1 に答える 1

Related

Reference