xml-parsing - 情報抽出 - ビジネス文書

Question

私は現在、請求書などのビジネス文書から送信者または受信者などの情報を抽出しようとしています。ドキュメントは ocr ソフトウェアで xml ファイルに処理されているため、書式設定の特徴が注釈として付けられています。送信者や受信者などの機能を使用して、同様のドキュメントに手動で注釈を付けた後、新しいドキュメントから特定の情報を抽出したいと考えています。

私の質問は、類似したドキュメントの 1 つまたは 2 つの例と比較することによって特定のデータを抽出できる学習またはマッチングアルゴリズムがあるかどうかです。はいの場合：それが可能なJavaフレームワークはありますか？

よろしくお願いします

まぐ

score 0 · Accepted Answer

XML 構造が常に同じ場合 (同じテンプレートを使用):

情報が配置されている選択したノードの XML 親ノードを保存するだけで、情報へのパスがわかります。問題になることはありません - 些細な作業です。

情報を検索する必要がある場合:

特定の特徴抽出ルールを作成し、その特徴を使用してサポートベクターマシンをトレーニングし、情報が存在する領域を検出することで機能する可能性があります。

Algorithm to match natural text in mail で同様の質問をしたことがあります。

しかし、それは些細なことではなく、間違いなく 1 つまたは 2 つのトレーニングドキュメントが必要です。

xml-parsing - 情報抽出 - ビジネス文書

1 に答える 1

Related

Reference