高品質のカメラを使用して、ドキュメントから特定のテキストブロックをスキャンし、それらをOCRするツールを作成する必要があります。各ドキュメントは同じテンプレートに一致し、データで満たされたテーブルがいくつか含まれています。スキャンした各ドキュメントの特定のセルからデータを抽出する必要があります。
画像の回転とマイナーな変換を考慮する必要があります。ワークフロー全体は次のようになります。
- ドキュメントはカメラに「表示」されます。ソフトウェアがドキュメントの画像を作成します。
- ソフトウェアは、いくつかのマイナーな回転およびその他の変換を考慮します(ドキュメントが手に保持されているため、マイナーなせん断、スケーリング、回転が発生する可能性があります)。
- ソフトウェアは、適切なテンプレートドキュメントが表示されていることを識別し、特定のセルから画像を抽出します。
- 次に、画像がOCRされます。
基本的に、私は最終的な解決策を必要としませんが、どこから探し始めるかについてのいくつかの指示が必要です。プレーンテキストのOCRを実行する方法を知っていますが、ステップ2と3を実装する方法がわかりません。
前もって感謝します。