4

ライブラリを使用してOCRed Tiffファイルからテキストを抽出し、データベースにダンプしています。私が抽出しているテキストは、実際には NAME、DOB、COUNTRY などのフィールドを持つフォームです。OCR は実際の値とラベルの違いではないため、すべてのテキストをダンプしているだけです。これで、DB に次の形式のテキストがあります。

名前: MyName 住所: 私の住所

次のステップは、DB からMyNameMyAddrssの値を抽出することです。ドキュメント タイプが異なる場合があるため、一般的なパーサーが機能しない場合があります。

この状況に対処するためにあなたは何を提案しますか? 別のパーサーを作成する必要がありますか? ANTLRは私を助けることができますか? はいの場合、どのように?よろしくお願いします。

私は.NETに取り組んでいます

4

0 に答える 0