forms - スキャンした文書画像の空白フィールドを見つける方法

Question

アプリケーションで、モノクロイメージファイルとして存在するフォームの 1 つのフィールドに入力する必要があります。フォームは常に同じ紙のバージョンとして開始されますが、アプリケーションがユーザーからフォームを取得するまでに、複数回スキャンまたはファックス送信されている可能性があります。そのため、必要なフィールドがすべてのファイルで同じ場所にあるわけではありません。

ユーザーが常に空白のフォームを受け取るとは限らないため、後で認識できるマークやプレースホルダーを印刷する機能がありません。

元の空白のフォームにテキストがありますが、FAX 送信された可能性があるため、解像度は 200 dpi しかありません。テキストは常に人間が読むのに十分な大きさですが、OCR については懐疑的です。

予算はいくらかあるので、無料のソリューションは必要ありません... $2000 としましょう。

とは言え、検討中です

必要なフィールドのテキストラベルを見つけるための OCR ソリューションを入手してください。私は自分自身をロールバックするためのリソースや専門知識を持っているとは思いません. テキストの内容はすでに知っているので、完全な認識は必要ありません。ただし、X 座標と Y 座標を知る必要があります。これを行うソフトウェアはありますか？それとも、プログラミングは思ったより簡単ですか?
フォームのエッジを認識するソフトウェアを作成または購入します。そこから、必要なフィールドの相対位置を取得できました。スキャナーソフトウェアが小さな文書の画像の周りに配置する破線について考えています。それは既知のアルゴリズムですか、それとも利用可能な解決策はありますか?
必要なフィールドを認識する他の方法。フォーム入力ソフトウェアをグーグルで検索しようとすると、何百もの Web フォーム、PDF フォームなどの一致が得られます。

私は言葉にうるさいわけではありません。私のアプリケーションは Linux で実行されますが、最適なソリューションが Microsoft である場合、おそらくそれを機能させることができます。

よろしくお願いします。

score 4 · Accepted Answer

私の理解が正しければ、フォームは常に同じですが、コピー/ファックスにより、シフト、スケーリング、またはわずかに回転している場合があります. その場合、問題は画像登録の 1 つです。ユーザーからのフォームを、関心のあるフィールドの位置がわかっている「モデル」フォームと並べる最適な剛体変換を見つけます。変換がわかったら、ユーザーのフォーム内のフィールドの位置を計算できます。

多くの画像レジストレーションアルゴリズムがあり、通常は脳の MR 画像の位置合わせなどのアプリケーション用に開発されています。それらは計算コストが高く、統計的な事前分布が必要です。幸いなことに、あなたの場合はもっと簡単です。必要なのは、ユーザーのフォームの内容を四角形で囲むことだけです。座標降下が機能するはずです。ノイズ (フォーム外のがらくた) に対する許容度が必要になります。

score 0 · Accepted Answer

利用可能ないくつかの OCR ソリューション (オープンソースと非オープンソース) の概要を次に示します。

forms - スキャンした文書画像の空白フィールドを見つける方法

3 に答える 3

Related

Reference