1

半規則的な形式のドキュメントのセットがあります。行は通常、改行文字で区切られ、各行の主要コンポーネントはスペースで区切られます。いくつかの例は、家具の組み立て手順のセット、目次のセット、レシピのセット、および銀行取引明細書のセットです。

問題は、各セットの各標本が、正規表現の解析を実行不可能にする方法でピアメンバーと異なることです。アイテムの数量がアイテム名の前後に来る可能性があり、同じアイテムが標本間で異なる名前を持つ可能性があります。行の間にメモが存在する場合などがあります。

分類子(ニューラルネット、ベイジアン、GA、GP)を使用して、ドキュメント全体またはデータセットを処理しましたが、ドキュメントからアイテムを抽出してコンテキスト内で分類することはしませんでした。これはできますか?より実行可能なアプローチはありますか?

4

2 に答える 2

2

データに構造がある場合は、おそらく文法を使用してその構造の一部を記述することができます。(通常、文法を使用して、多くの場合、多すぎることができることを認識し、文法外のチェックを使用して、文法で除去できないものを取り除きます)。

並列の潜在的な解析を実行できる文法を使用すると、実行不可能になったときに解析が排除され、さまざまな順序を簡単に解析できます。(GLRパーサーはこれをうまく行うことができます)。

イメージングには、金額を表すNUMBERS、さまざまなオブジェクトを表すNOUNS、およびアクションのVERBSがあります。その場合、アイテムのさまざまな順序を受け入れることができる文法は次のようになります。

 G = SENTENCE '.' ;
 SENTENCE = VERB NOUN NUMBER ; 
 SENTENCE = NOUN VERB NUMBER;
 VERB = 'ORDER' | 'SAW' ;
 NUMBER = '1' | '2' | '10' ;
 NOUN = 'JOE' | 'TABLE' | 'SAW' ;

このサンプルは非常に単純ですが、以下を処理します。

 JOE ORDERED 10.
 JOE SAW 1.
 ORDER 2 SAW.

また、受け入れます:

 SAW SAW 10.

アクターは人でなければならないという外部制約を追加することで、これを排除できます。

于 2010-10-29T02:23:50.373 に答える
0

それを行う方法はたくさんあります。これは、情報抽出と呼ばれる活発な研究分野です。特に、半構造化されたソースからの情報抽出。

于 2010-11-07T16:12:49.290 に答える