4

tesseract を使用して多くの自動化された OCR を実行するようにサーバーをセットアップしています。結果の後処理を行いたいと考えています。

理論的な面ではこれに関するリソースがたくさんありますが、実用的な面ではあまり見つかりませんでした。

次のような基本的なことができると思います。

  • 同じ文字を 3 つ続けて消す
  • すべての母音を含む「単語」を削除する
  • 特定の長さより長い「単語」を削除する
  • 等。

私はこれについてあまり考えていませんが、OCR されたテキストは検索システムに送られるので、明らかに間違っている単語を削除または修正するのと同様に、単語マップを小さく保つことは良いことです。

それが問題なら、コンテンツ自体は英語で書かれた法廷文書です。そのため、適切な名前が時々ありますが、単語の種類はおそらくそれほど多くなく、フォントはおそらくかなり安定しています.

私が知っておくべきポインタや良いリソースはありますか?

4

1 に答える 1

-1

各 OCR エンジンには、ドキュメント内のフォント、スキャンの品質、使用される dpi、色の背景、斑点除去、傾き補正、線除去などの使用される画像前処理にも依存する独自の一般的なエラー セットがあります。これらのエラーが何であるかを知るには、多くのテストを実行し、結果を分析して共通のエラー セットを探します。

正しいスキャナー設定と画像前処理アルゴリズムを使用すると、OCR の結果を大幅に改善できます。この部分を過小評価しないでください。

テキストが主に英語の単語である場合は、ファジー タイプのルックアップ システムを備えた優れた辞書が非常に役立ちます。その他の有用なテクニックは、トリグラム分析と 2 番目の OCR エンジンによる投票です。

于 2012-01-24T05:06:07.487 に答える