c# - OpenText DokuStar Capture Center 抽出機能の強化

Question

OpenText Capture Center 内のプログラミングに関するドキュメントやコードスニペットは実質的に存在しないためです。経験者からの情報が必要です。

必要なものの要点は次のとおりです... Scripting Manager では、抽出中に一致または識別されたフィールドに関係なく、OCR がドキュメントで識別したすべての Phrase オブジェクトにアクセスできる必要があります。

OCR フレーズにアクセスできる限り、任意のフィールドでの一致率を大幅に向上させる 2 つのことを行うことができます。

照合が行われる前の一種の前処理として、インボイスフレーズのサニテーションと変換を実行します (例: Corporation を CORP に変え、アポストロフィを削除するなど)。
ネイティブの Generic SnapMatch よりもデータを理解するカスタムマッチング関数を記述します。

ありがとう！

score 0 · Accepted Answer

最終的に、Scripting Manager エントリポイント経由でこれを行う方法はありません。これは、すべての画像データがスクリプトマネージャに入力される前に解析および抽出されるためです。マネージャーの抽出フェーズに到達するまでに、出力ドキュメントのメタ構造を表す XML ランタイムドキュメントが作成されます。このドキュメントは、入力前に抽出が「有用であると考えられる」データを含んでいます。フィールドに直接適合しなかった他のすべての可能な「フレーズ」および抽出された他のデータ型または代替は「破棄」されます。DoKuStar が興味を示さなかったベンダー名または類似のものは、どのコードメカニズムでも検索できないことを意味します。

私が解決しなければならなかった問題は、私の特定のドメインに固有のものであり、Oracle グループのポリシーによって間接的に引き起こされました。ベンダーの名前から特殊文字が取り除かれ、連結されました。基本的に、それらは請求書の内容と一致しなかったため、スナップマッチは事実上役に立たなかった.

ローカル SnapMatch データベースをユーザーが直接更新できる中間ソリューション、いわば「ベンダーの名前を変更」を作成しました。そのため、ローカルの SnapMatch データベースは、たとえ Oracle データベースが一致していなくても、修正を行うと請求書の内容と一致します。全体として、コーディング側の特定の解決策ではありませんが、ドメインの問題に対する効果的な解決策であることが判明しました。

c# - OpenText DokuStar Capture Center 抽出機能の強化

1 に答える 1

Related

Reference