数字といくつかのテキストのフィールドを使用して、スキャンされたフォームを OCR しようとしています。ただし、トリミングされたテキストに対して tesseract を実行しても、正しい結果は得られません。
たとえば、数値 7 の場合:
実行時の結果は 1 です。
tesseract -psm 10 7test.jpg out digits
7を介してストロークにもかかわらず。
一方、テキスト フィールドの場合はさらに難しく、次のフィールドでは何も得られません。
ここで精度を向上させる簡単な方法はありますか? フォームが手書きであるため、理想的には優れたトレーニング セットを作成することは避けてください。
名前フィールドでは、向きを改善してフィールドを囲む線を削除できる可能性がありますが、出力がないことが心配です。
数字については、おそらくフォームから手動のトレーニング セットを作成することを除いて、私にはわかりません。