3

Tesseract を使用して、ドキュメントから約 10 ~ 20 個のキーワードを抽出したいと考えています。ドキュメントには、すべての英語の文字/単語が含まれます。気になるのは「年齢:23歳」とか。ここで、Age は私が興味を持っているキーワードであり、23 (その値) も抽出したいと考えています。

私の頭に浮かんだ最初のアプローチは、ページ全体をテキストに抽出し、認識されたテキストでキーワードを探すことです。しかし、テッセラクトのトレーニングに関しては、キーワードを知っていれば、精度が向上する可能性のあるより良いアプローチがありますか?

私は多かれ少なかれ Tesseract OCR の限界を認識しています。その制限の中で最大化しようとしています。専門的なアドバイスをありがとうございます。

4

1 に答える 1

5

Tesseract でバザーマッチング パターンを試してください。

于 2013-09-07T15:29:25.763 に答える