3

強い手をありがとう!

次のようなテキストがあります

aaaaa aaaa aaaaa aaaaaa
bbbbb bbbbb bbbb bbbbbb
cccccc ccccc ccccc cccccc

Ruta を使用して、改行間のすべての文字列に一致する注釈を作成したいと考えています。注釈で次の 3 つの一致を作成する必要があります。

1. aaaaa aaaa aaaaa aaaaaa
2. bbbbb bbbbb bbbb bbbbbb
3. cccccc ccccc ccccc cccccc

次のように、改行間のすべてを一致させようとします

BREAK #{-> MARK(Stuff)} BREAK;

しかし、運がありません。誰か提案をお願いできますか?

どうもありがとうございました!

4

1 に答える 1

5

ルールの問題は、現在使用されているフィルタリング設定にある可能性があります。デフォルトでは、空白、改行、およびマークアップは表示されません。ルールはおそらく、一致プロセスを開始するためのアンカーを見つけることができません。たとえば、RETAINTYPE を使用して、ルールの区切りを表示する必要があります。

Document{-> RETAINTYPE(BREAK)};
BREAK #{-> MARK(Stuff)} BREAK;
Document{-> RETAINTYPE}; // for restoring the default setting

これらの注釈を作成できる分析エンジンもあります: PlainTextAnnotator。ただし、この分析エンジンには、行頭と行末の空白も含まれます。これらは、次のような方法で削除できます。

Document{-> RETAINTYPE(SPACE)};
Line{->TRIM(SPACE)};

UIMA Ruta 2.2.1 (次のリリース) では、次のように書くこともできます。

Document{-> RETAINTYPE(BREAK)};
(#{-> Stuff} BREAK)+;

(私はUIMA Rutaの開発者です)

于 2014-06-20T08:33:59.667 に答える