1

トークン化されたテキスト(分割された文と分割された単語)があります。そして、この構造に基づいてApacheLuceneインデックスを作成します。カスタムトークンを使用するために標準のトークナイザーを拡張または置換する最も簡単な方法は何ですか。StandardTokenizerImplを見ていましたが、非常に複雑なようです。他に方法はありますか?

4

1 に答える 1

0

StandardTokenizerImplは、JFlex文法から生成されているため、複雑です。

独自のトークナイザーを実装する場合は、トークナイザークラスを拡張するだけです。

たとえば、WhitespaceTokenizerは、空白でトークンを分割する単純なトークナイザーです。

于 2012-09-27T10:19:40.193 に答える