algorithm - 複雑なドキュメントからのOCRスキャン

Question

高品質のカメラを使用して、ドキュメントから特定のテキストブロックをスキャンし、それらをOCRするツールを作成する必要があります。各ドキュメントは同じテンプレートに一致し、データで満たされたテーブルがいくつか含まれています。スキャンした各ドキュメントの特定のセルからデータを抽出する必要があります。

画像の回転とマイナーな変換を考慮する必要があります。ワークフロー全体は次のようになります。

ドキュメントはカメラに「表示」されます。ソフトウェアがドキュメントの画像を作成します。
ソフトウェアは、いくつかのマイナーな回転およびその他の変換を考慮します（ドキュメントが手に保持されているため、マイナーなせん断、スケーリング、回転が発生する可能性があります）。
ソフトウェアは、適切なテンプレートドキュメントが表示されていることを識別し、特定のセルから画像を抽出します。
次に、画像がOCRされます。

基本的に、私は最終的な解決策を必要としませんが、どこから探し始めるかについてのいくつかの指示が必要です。プレーンテキストのOCRを実行する方法を知っていますが、ステップ2と3を実装する方法がわかりません。

前もって感謝します。

score 0 · Accepted Answer

基本的に、プレーンテキストのOCRは、特に非常に優れたスキャン画像に関しては、十分に解決されたタスクです。あなたが説明するのはさらに一歩です-画像の前処理とデータキャプチャによるフィールドレベルの認識。私の知る限り、オープンソースエンジン（それらの中で最高であると考えられているtesseractでさえ）はそのような機能を提供しません。

同時に、プロプライエタリOCRエンジンは、あなたが説明するタスクを何年にもわたって解決しており（膨大な人的資源を費やして）、非常によく進歩しています。したがって、商用ソフトウェアを計画している場合は、http：//ocrsdk.comを参照することをお勧めします。これは、WebAPIを備えたクラウドOCRSDKです。画像をアップロードして、OCRedデータを送り返すことができます。すでにすべての可能な画像前処理アルゴリズムが組み込まれているため、手順2について心配する必要はありません。手順3については、ドキュメントのこのセクションを参照することをお勧めします。私はこのサービスのフロントエンドを開発したチームの一員だったので、もう少し詳しく説明できます。それが役に立てば幸い！

algorithm - 複雑なドキュメントからのOCRスキャン

1 に答える 1

Related

Reference