ocr - 特定の単語の Tesseract をトレーニングする - 可能ですか?

Question

Tesseract を使用して、ドキュメントから約 10 ～ 20 個のキーワードを抽出したいと考えています。ドキュメントには、すべての英語の文字/単語が含まれます。気になるのは「年齢：23歳」とか。ここで、Age は私が興味を持っているキーワードであり、23 (その値) も抽出したいと考えています。

私の頭に浮かんだ最初のアプローチは、ページ全体をテキストに抽出し、認識されたテキストでキーワードを探すことです。しかし、テッセラクトのトレーニングに関しては、キーワードを知っていれば、精度が向上する可能性のあるより良いアプローチがありますか?

私は多かれ少なかれ Tesseract OCR の限界を認識しています。その制限の中で最大化しようとしています。専門的なアドバイスをありがとうございます。

score 5 · Accepted Answer

5

Tesseract でバザーマッチングパターンを試してください。

于 2013-09-07T15:29:25.763 に答える

ocr - 特定の単語の Tesseract をトレーニングする - 可能ですか?

1 に答える 1

Related

Reference