私は現在、請求書などのビジネス文書から送信者または受信者などの情報を抽出しようとしています。ドキュメントは ocr ソフトウェアで xml ファイルに処理されているため、書式設定の特徴が注釈として付けられています。送信者や受信者などの機能を使用して、同様のドキュメントに手動で注釈を付けた後、新しいドキュメントから特定の情報を抽出したいと考えています。
私の質問は、類似したドキュメントの 1 つまたは 2 つの例と比較することによって特定のデータを抽出できる学習またはマッチング アルゴリズムがあるかどうかです。はいの場合:それが可能なJavaフレームワークはありますか?
よろしくお願いします
まぐ