1

数字といくつかのテキストのフィールドを使用して、スキャンされたフォームを OCR しようとしています。ただし、トリミングされたテキストに対して tesseract を実行しても、正しい結果は得られません。

たとえば、数値 7 の場合:ナンバー7

実行時の結果は 1 です。

tesseract -psm 10 7test.jpg out digits

7を介してストロークにもかかわらず。

一方、テキスト フィールドの場合はさらに難しく、次のフィールドでは何も得られません。

テスト名

ここで精度を向上させる簡単な方法はありますか? フォームが手書きであるため、理想的には優れたトレーニング セットを作成することは避けてください。

名前フィールドでは、向きを改善してフィールドを囲む線を削除できる可能性がありますが、出力がないことが心配です。

数字については、おそらくフォームから手動のトレーニング セットを作成することを除いて、私にはわかりません。

4

0 に答える 0