トークン化されたテキスト(分割された文と分割された単語)があります。そして、この構造に基づいてApacheLuceneインデックスを作成します。カスタムトークンを使用するために標準のトークナイザーを拡張または置換する最も簡単な方法は何ですか。StandardTokenizerImplを見ていましたが、非常に複雑なようです。他に方法はありますか?
質問する
2366 次
StandardTokenizerImplは、JFlex文法から生成されているため、複雑です。
独自のトークナイザーを実装する場合は、トークナイザークラスを拡張するだけです。
たとえば、WhitespaceTokenizerは、空白でトークンを分割する単純なトークナイザーです。