1

私はこれに対する解決策を何週間も探していました.GATEを使用して分類しようとしているドキュメント(約95)がいくつかあります. これらを training_corpus という名前の 1 つのコーパスに入れましたが、ANNIE がコーパスに注釈を付けた後、各ファイルに戻り、ドキュメント内のすべてのトークンを選択し、Mention という注釈を作成する必要があります。特徴のタイプと値はクラスです。ドキュメントのために。例えば:

type Start End id Features
Mention 0 70000 2588 {type=neg}

JAPEでこれを自動的に行う方法はありますか? 基本的には、すべてのトークンを選択し、feature(type=class) で新しいアノテーションを作成したいと考えています。また、クラスがドキュメントに追加されます。ドキュメントが多いので、JAPEはドキュメント名からクラスを抽出し、メンション機能の値に設定できます。ドキュメント名の例は neg_data1.txt なので、アノテーションは Mention.type = neg? になります。

どんな助けでも大歓迎です。ありがとう

4

1 に答える 1

2

あなたは自分で質問に答えたと思います.クラスの割り当てがテキストに存在するトークンだけに基づいている場合-GATEの外でテキストを単純に処理しないのはなぜですか? たとえば、テキストのような xml ファイルを作成し、トレーニング プロセスで使用します。また、次の単純な JAPE ルールを作成することもできます。a) ドキュメント境界内のテキストを取得します (gate.Utils.length メソッド AFAIR を参照) b) トークンの存在に基づいて、必要な機能を備えた新しい Annotation インスタンスを作成します。抽象的な例:

Phase: Instance
Input: Token
Options: control = once

Rule:Instance
(
  {Token}
):instance
-->
{
   AnnotationSet instances = outputAS.get("INSTANCE_ANNOTATION");
    FeatureMap featureMap = Factory.newFeatureMap();
    if (instances!=null&&!instances.isEmpty()){
       featureMap.put("features when annotation presented in doc");
     }else{
       featureMap.put("features when annotation not in doc");
     }
    outputAS.add(new Long(0), new Long(documentLength), "Mention", featureMap);

}
于 2014-04-02T05:24:10.540 に答える