tesseract を使用して多くの自動化された OCR を実行するようにサーバーをセットアップしています。結果の後処理を行いたいと考えています。
理論的な面ではこれに関するリソースがたくさんありますが、実用的な面ではあまり見つかりませんでした。
次のような基本的なことができると思います。
- 同じ文字を 3 つ続けて消す
- すべての母音を含む「単語」を削除する
- 特定の長さより長い「単語」を削除する
- 等。
私はこれについてあまり考えていませんが、OCR されたテキストは検索システムに送られるので、明らかに間違っている単語を削除または修正するのと同様に、単語マップを小さく保つことは良いことです。
それが問題なら、コンテンツ自体は英語で書かれた法廷文書です。そのため、適切な名前が時々ありますが、単語の種類はおそらくそれほど多くなく、フォントはおそらくかなり安定しています.
私が知っておくべきポインタや良いリソースはありますか?