1

テキストファイルにあるアイテムを検索しようとしています。

テキスト ファイルは次のようになります。

>見出し

00345

XYZ

メソッド名: fdsafk

日付: 2012 年 4 月 23 日

追加のテキストと、XYZ` のインスタンスを含む一部の部分

そのため、最初に XYZ の辞書検索を行って位置を見つけましたが、最初の XYZ だけが必要で残りは必要ありません。XYZ には、常に 5 桁のコードとテキストMethodNameの間にあるプロパティがあります。

私にはそれができません。

WORDLIST ZipList = 'Zipcode.txt';
DECLARE Zip;
Document
Document{-> MARKFAST(Zip, ZipList)};

DECLARE Method;
"MethodName" -> Method;


WORDLIST typelist = 'typelist.txt';
DECLARE type;
Document{-> MARKFAST(type, typelist)};

また、UIMA RUTA で REGEX を使用するにはどうすればよいでしょうか。

4

1 に答える 1

1

これを指定するには多くの方法があります。以下にいくつかの例を示します (テストされていません)。

// just remove the other annotations (assuming type is the one you want)
type{-> UNMARK(type)} ANY{-STARTSWITH(Method)};

// only keep the first one: remove any annotation if there is one somewhere in front of it
// you can also specify this with POSISTION or CURRENTCOUNT, but both are slow
type # @type{-> UNMARK(type)}

// just create a new annotation in between
NUM{REGEXP(".....")} #{-> type} @Method;

UIMA Ruta で正規表現を使用するには、次の 2 つのオプションがあります。

  • (検索) 次のような単純な正規表現ルール"[A-Za-z]+" -> Type;
  • (matches) 次のようなルール要素の一致を検証するための REGEXP 条件
    ANY{REGEXP("[A-Za-z]+")-> Type};

不明な点があればお知らせください。それでは説明を延長します。

免責事項: 私は UIMA Ruta の開発者です

于 2016-02-16T14:03:02.653 に答える