6

コンピューターで印刷されたカード (カードの固定位置にある) の数字を認識し、それらを Web サービスに送信できるアプリを開発したいと考えています。

OCR を使用する必要があることはわかっていますが、どの製品が自分のニーズに合っているかわかりません。市場に出回っている API や製品を教えていただければ幸いです (オープンソースは必須ではありませんが、大歓迎です :)。

それに加えて、もう 1 つの技術的な質問があります。デバイスに OCR 認識を実装しますか、それとも Web サービスを使用してそれを呼び出し、画像を渡すようにしますか? 両方のモデルの長所と短所はどれですか?

4

1 に答える 1

2

画像の特定のフィールドを見つけるソリューションが必要な場合、それは OCR だけではなく、データ キャプチャ タスクです。それを解決する方法はいくつかあります。他の回答で提案されているように、OCR出力に基づいてフィールド検出ソリューションを作成するか、そのために特別に設計され、レイアウト構造を定義するための視覚的なツールを提供するツールキットを使用します。

最初の方法はより多くのプログラミングを必要としますが、ライセンスに関しては安価です。商用だけでなく、Tesseract のようなオープン ソースの OCR ライブラリも選択できます。これは完璧ではないかもしれませんが、微調整とフォント トレーニングを行うことで、多くのタスクに十分対応できます。

低品質の画像 (携帯電話のカメラで撮影した画像にはかなりの部分が含まれます) を扱う場合、フィールド ロケーション ソリューションは、画像の一部が認識されなかったり、誤って認識されたりしても、フィールドを特定できる場合に対処する必要があります。欲しいです。妥当な組み合わせを提供するために、いくつかの認識バリアントをクロスチェックすることもできます。

これは些細なことではなく、確実に動作するようになるには時間がかかります。しかし、それほど複雑なドキュメントがなく、レイアウトが 1 つしかなく、非常に予測可能であれば、それでも実行可能です。コードを所有すると、サーバーと電話の両方で実行できます。

もう少し複雑なドキュメントやさまざまなレイアウトのバリエーションを探している場合、このロジックを純粋なコードで管理するのは非常に困難になる可能性があります。この場合、より高度なデータ キャプチャ テクノロジを探すことをお勧めします。そこにはかなりの数の Data Captrue 製品がありますが、API の形で提供されているのは 1 つだけです: http://www.abbyy.com/flexicapture_engine/

これには 2 つのコンポーネントがあります。1 つは、ドキュメントの説明を作成およびデバッグするためのビジュアル ツールです。ドキュメントにフィールドの場所のロジックを記述するだけで、テクノロジーが残りの処理を行います。つまり、さまざまなバリアントについて投票し、認識の間違いに対処するなどです。いくつかの代替ドキュメント構造とルールを定義して、ドキュメント レイアウトで 1 つの値が別の値に対応するかどうかを確認できます。これらのルールは、最適な認識バリアントの選択にも影響します。

2 番目のコンポーネントは実際には API です。アプリケーションにプラグインして、ドキュメント テンプレートの説明をロードするだけです。モバイル認識のシナリオでは、サーバーのバックエンド処理としてのみ使用できます。これは、モバイルに適合するには強力で重すぎるためです。ただし、その明るい面は、すべてのモバイル OS に移植する必要がないことです。モバイル リソースに適合する制限付きの OCR テクノロジとは対照的に、完全な機能の OCR テクノロジを使用します。このツールキットには、電話でキャプチャされた画像をより適切に処理するための高度な画像処理テクノロジが含まれています。

免責事項: 私は ABBYY で働いています。

于 2011-04-26T12:23:39.903 に答える