商用またはオープンソースの製品、ライブラリ、ソリューション、さらには次のことを支援できるアプローチを知っている人はいますか?
OCR 処理に Nuance の Omnipage を使用しています。それはうまくいきます。しかし、さまざまなパターンに基づいて、さまざまな形式のデータを見つけたいと考えています。これは会計上の証拠になる可能性がありますが、ポイントは、生データのタイプが異種であり、共通の要因があるにもかかわらず、ルールベースの方法で定義するのが難しいということです. 私の質問に部分的に対処する以前の質問を1つ見つけました(ただし、構造化されたPDFを持っていると想定していましたが、そうではありません)
いくつかの共通点があります * ドキュメントの種類は似ています * 探しているものの前または上にキーワードがありますが、それらのキーワードには同義語があるかもしれません国; 例: DD/MM/YYYY, MM/DD/YYYY, YYYY-MM-DD, DD'th MMM, YYYY など (国はわかっていると思います)私たちはその国を知っているでしょう)