3

Python と機械学習/自動データ入力に興味があります。しかし、研究が進むにつれて、それぞれに独自の強みを持つ非常に多くの異なる手法があることに気付きました。

反対の方向に学べば、さらに上達できると判断しました。つまり、問題/タスクを選び、それを解決/完了することで学習します。

FAX で送信された請求書をデータ処理する必要がある場合があります。スキャンしてから入力できるプログラムを作成したいと考えています。

ファックスは、基本的に 2 つの同一のテーブルで構成されています。各行は個別のワーカーを表します。1 列目は労働者の名前 (6 つから選択) です。2 列目は住所で、残りの列はチェック ボックスで、さまざまなジョブを示します。ページ上部のボックスに請求書 ID もあります。

誰かがこれをどのように行うかを簡単に説明してくれることを願っています。テキスト認識やその他の技術に SVM を使用する場合は? また、5 番目のボックスの目盛りが「cleaned=yes」を意味し、左上のボックスの数字が ID であることをプログラムに理解させるにはどうすればよいでしょうか。私は少し調査を行いましたが、開始方法について頭を悩ませることができません。ファックス/スキャンのために絶対的な配置/サイズを保証できない場合、ページの残りの部分から上部のテーブルとそのセルなど、ファックスの一部を分離することはどのように可能ですか. それとも、何百ものファックスとこれらのファックスのタイプアップされたデータを取得し、それらを比較してから、ファックス a と b の違いをゆっくりと学習させる必要がありますか?

どんなアドバイスでも大歓迎です!

4

1 に答える 1