0

次のようなことを行うUIMAツールチェーンがあると仮定します。

トークン化->POSタグ付け->カスタムタグ/注釈の割り当て->カスタムタグを使用してさらにタグを割り当てます->さらに処理します。

POSタグ付けの直後、2つのカスタム項目の間、またはその後に、サードパーティ、たとえばエンティティ認識(POSタグを使用しますがそれ以上は必要ありません)を使用することは可能でしょうか?

型システムによる複雑さを見ることができるので、私はこの質問をしています。特に最も難しいケースは、カスタムのものの間またはその直後にサードパーティのERアノテーターを接続することです。サードパーティのアノテーターは、カスタムタグがそこにあることを期待しません。

ただし、注釈を確認したり変更したりせずに、注釈を「通過」させる必要がある追加の注釈があります。ですから、原則として、これは可能だと思います。UIMAがこれをサポートしているのか、それともどこでも厳密に入力して完全なチェーンを自分で作成するのかどうかはわかりません。

これが箱から出して不可能な場合は、他の注釈が存在するかどうかに関係なく、POSタグが利用できる場所ならどこにでもプラグインできるようにカスタム注釈を作成できますか。つまり、アノテーターの作成者は、必要な注釈、追加する注釈、および存在するかどうかに関係なく、それらを気にせずに通過するだけの注釈がいくつもある可能性があることに注意しますか?

4

1 に答える 1

3

サードパーティのアノテーターは、カスタムタグがそこにあることを期待しません。

私が正しく理解していれば、カスタムアノテーションがサードパーティのNERと衝突するのではないかと心配していますよね?コードがまったく同じアノテーションを追加しない限り、それは行われません。

これがUIMAの強みです。すべての分析エンジン(AE)は他の分析エンジン(AE)から独立しており、CASで渡される注釈のみを考慮します。たとえば、タイプのアノテーションを期待するAEがあるとしますmy.namespace.Token。CASに存在する限り、どのAEがこれらの注釈を作成したかは関係ありません。

この柔軟性の代償として、(開発者として)各AEに必要なアノテーションが存在することを確認する必要があります。たとえば、AEがタイプの注釈を期待しているが、注釈my.namespace.Sentenceが存在しない場合、このAEは処理を実行できません。

于 2012-03-01T14:30:54.810 に答える