いくつかの画像で光学式文字認識を実行した後、おおよそのテキストが得られます。多くの場合、認識は大きくありません。たとえば、実際のテキスト「DATE」は「DHTE」または「0HTE」になります。基本的に、各行のデータを識別して抽出する必要があるため、完全な認識は必要ありません。日付変更線を識別するのに十分です。レーベンシュタイン編集距離を計算しようとしましたが、残念ながら、これは DATE と TIME に同様の値を与える傾向があります。現時点では、代わりに正規表現を使用してデータ パターンを一致させることができるかどうかを調査しようとしています。
マッチングプロセスを改善する方法/アルゴリズムはありますか? 幸いなことに、私の単語セットはそれほど大きくありません。
(私は ocr に tesseract を使用し、アルゴリズムに groovy/java を使用しています)