ocr - チェックボックスを使用してドキュメントをスキャンして読み取る

Question

各地のお年寄りに食事を提供したいというお客様からのご依頼です。これを行うために、人々はその週のフォームに記入し、各日の選択に応じてボックスにチェックを入れます (特定の要件も考慮されます)。

例えば：

 Name
 Commune

                  With salt ( )      Without salt []

Mon :       Meal 1 ( )                   Meal 2 ( )
           Dessert 1 ( )                 Dessert ( )

Tues :       Meal 1 ( )                   Meal 2 ( )
           Dessert 1 ( )                 Dessert ( )

次に、各シートのデータをコンパイルして、各コミューンで毎日準備する各タイプの食事の数を教えてください...

シートは全部同じなので、スキャンして自動で読み取れるようになればいいなと思っています。

これを可能にするソフトウェアを知りません。このタスクを達成する最善の方法は何ですか? 現時点では tesseract を見ていますが、もっと簡単なテクニックがあるのではないでしょうか?

編集: 週に数百のフォームについて話しています。理想的には、それらを同時にスキャンし、データを抽出してフォームを電子的に保存します。

score 11 · Accepted Answer

機械で印刷された文字を読み取ることを意味する OCR を探しているわけではありません。フォーム処理またはデータキャプチャとも呼ばれる ICR/OMR ソフトウェアを探しています。OMRはOptical Mark Recognitionの略で、チェックマーク/チェックボックスの値を認識しようとしています。

手書き認識に関する追加情報はこちら: 機械印刷テキストの ICR?

フォームが同じであるため、フォームが「固定フォーム」のカテゴリに分類され、テンプレートベースのソフトウェアパッケージがそれらのフォームを処理できることを意味します。フォームタイプの違いを説明する短いドキュメントを次に示します: www.wisetrend.com/files/Structured_vs_Semi-Structured.pdf

空白のフォーム自体も、機械が認識できるように適切に設計する必要があります。テンプレートをより適切に配置するための参照マーク、ユーザーが自然に入力する方法をユーザーが理解できるように明確なフロー、適切なサイズのチェックボックスなどを含める必要があります。

FlexiCapture は必要なすべてを行うと思います: link。同様のプロセスを実行できる他のソリューションが少なくともいくつかあります。私は、紙ベースのフォーム処理プロジェクトのインテグレーター/コンサルタントとして働いています。

これらの画像をキャプチャするために携帯電話を使用する予定はないと思われるため、「モバイル」タグを削除しました。もしそうなら、他の選択肢があれば、私はそれをしないことをお勧めします. あなたは、従来のスキャナーでそれらをスキャンすると述べました。これは、良好な画質を実現するための最良のオプションです。人間の手書きフォームを処理する際には十分な処理が必要になるため、フォーム、スキャン、ソフトウェア、およびプロセスを可能な限り最適化してください。

自分で開発することに興味があるなら、それは可能です。このプロセスは、画像領域 (各チェックマーク) を何らかの「ベースライン」と比較して、その領域に追加の手書きがあるかどうかを確認することです。あるしきい値を超えている場合、チェックマークがオンになっています。典型的な問題は、領域の位置合わせと境界しきい値レベル (小さい/薄い目盛り) です。商用パッケージはそれを自動的に処理します。

追加のガイダンスが必要な場合はお知らせください。

イリヤ・エヴドキモフ

ocr - チェックボックスを使用してドキュメントをスキャンして読み取る

1 に答える 1

Related

Reference