ocr - 基本的な OCR 後処理 (スペル修正プログラム)

Question

tesseract を使用して多くの自動化された OCR を実行するようにサーバーをセットアップしています。結果の後処理を行いたいと考えています。

理論的な面ではこれに関するリソースがたくさんありますが、実用的な面ではあまり見つかりませんでした。

次のような基本的なことができると思います。

同じ文字を 3 つ続けて消す
すべての母音を含む「単語」を削除する
特定の長さより長い「単語」を削除する
等。

私はこれについてあまり考えていませんが、OCR されたテキストは検索システムに送られるので、明らかに間違っている単語を削除または修正するのと同様に、単語マップを小さく保つことは良いことです。

それが問題なら、コンテンツ自体は英語で書かれた法廷文書です。そのため、適切な名前が時々ありますが、単語の種類はおそらくそれほど多くなく、フォントはおそらくかなり安定しています.

私が知っておくべきポインタや良いリソースはありますか?

score -1 · Accepted Answer

各 OCR エンジンには、ドキュメント内のフォント、スキャンの品質、使用される dpi、色の背景、斑点除去、傾き補正、線除去などの使用される画像前処理にも依存する独自の一般的なエラーセットがあります。これらのエラーが何であるかを知るには、多くのテストを実行し、結果を分析して共通のエラーセットを探します。

正しいスキャナー設定と画像前処理アルゴリズムを使用すると、OCR の結果を大幅に改善できます。この部分を過小評価しないでください。

テキストが主に英語の単語である場合は、ファジータイプのルックアップシステムを備えた優れた辞書が非常に役立ちます。その他の有用なテクニックは、トリグラム分析と 2 番目の OCR エンジンによる投票です。

ocr - 基本的な OCR 後処理 (スペル修正プログラム)

1 に答える 1

Related

Reference