3

Kofax Capture 10 (SP1、FP2) を使用して、ドキュメントのいくつかのフィールドに認識ゾーンを設定しました。これらのフィールドは一貫して I を 1 として認識しています。フィールド内のすべてのキャラクターを消去しないように、考えられるすべての設定の組み合わせを試しましたが、役に立ちませんでした。Advanced OCR と High Performance OCR、文字用のさまざまなフィルターを試しました。全種類の。

この文字を自動的に認識するためにどのようなオプションを試すことができますか? フォームの作成者 (コンピューターによって生成されたフォーム) に、別のフォントを使用してみる必要があることを伝えるべきですか? 今が検証の使用を検討する時期であることを彼らに納得させますか?

私の現在のフィールド設定:

詳細ダイアログの最大精度以外のカスタム設定のない Kofax Advanced OCR。これは、これまでに試した他のものと同様に機能しました。

使用されているフォントは 8 ~ 12 ポイントの arial です。

4

1 に答える 1

3

電子ドキュメントまたは紙のドキュメントが処理されるかどうかに関係なく、OCR が含まれる場合検証は必須です。紙のドキュメントの場合、これはさらに大きな必須事項です。

少なくとも 11pt Arial を使用し、ドキュメントを 300 dpi の画像としてレンダリングします。これにより、99.9% の精度が得られます (つまり、1000 文字を逃した場合に 1 文字)。特に 1-I、0-O、6-G など、1 つの単語内に数字と文字が混在するデータがあると、精度が低下する可能性があります。

そのような混合データがなく、OCR が引き続き数字と文字の混合を返すことがわかっている場合は、認識スクリプトを使用できます。PostRecognition スクリプト イベントを使用して、OCR エンジンから認識結果を取得し、SBL または VB.NET スクリプトで変更できます。ただし、処理するドキュメントとデータに大きく依存します。

画像のクリーンアップは、電子ドキュメントには何の役にも立ちません。

検証を使用するのが最善だと思います。少なくとも、検証オペレーターに責任が押し付けられます。

于 2013-01-22T20:31:53.103 に答える