ライブラリを使用してOCRed Tiffファイルからテキストを抽出し、データベースにダンプしています。私が抽出しているテキストは、実際には NAME、DOB、COUNTRY などのフィールドを持つフォームです。OCR は実際の値とラベルの違いではないため、すべてのテキストをダンプしているだけです。これで、DB に次の形式のテキストがあります。
名前: MyName 住所: 私の住所
等
次のステップは、DB からMyNameとMyAddrssの値を抽出することです。ドキュメント タイプが異なる場合があるため、一般的なパーサーが機能しない場合があります。
この状況に対処するためにあなたは何を提案しますか? 別のパーサーを作成する必要がありますか? ANTLRは私を助けることができますか? はいの場合、どのように?よろしくお願いします。
私は.NETに取り組んでいます