0

パターンに基づいて文字列をトークン化する方法は?

例。次の文字列で

arg1:aaa,bbb AND arg2:ccc OR arg3:ddd,eee,fff

まず、AND と OR に基づいてトークン化したい

そう

Token set 1 arg1:aaa,bbb

Token set 2 arg2:ccc

Token set 3 arg3:ddd,eee,fff

後で、これらの個々のトークン セットをメソッドに渡し、「:」に基づいてトークン化したいと考えています。

Token set 1
Token 1 aaa
Token 2 bbb

Token set 2
Token 1 ccc

Token set 3
Token 1 ddd
Token 2 eee
Token 3 fff

Luceneを使用してカスタムパターンを使用してトークン化する方法は?

4

1 に答える 1

1

カスタム トークン化の実装を実行するには、通常、独自の を実装しますTokenizer。実装する必要がある主な方法はTokenStream.incrementToken().

Tokenizerその後、 に組み込むことができますAnalyzer

于 2013-07-23T15:15:47.190 に答える