java - Apachelucene4のカスタムトークナイザー

Question

トークン化されたテキスト（分割された文と分割された単語）があります。そして、この構造に基づいてApacheLuceneインデックスを作成します。カスタムトークンを使用するために標準のトークナイザーを拡張または置換する最も簡単な方法は何ですか。StandardTokenizerImplを見ていましたが、非常に複雑なようです。他に方法はありますか？

score 0 · Accepted Answer

StandardTokenizerImplは、JFlex文法から生成されているため、複雑です。

独自のトークナイザーを実装する場合は、トークナイザークラスを拡張するだけです。

たとえば、WhitespaceTokenizerは、空白でトークンを分割する単純なトークナイザーです。

java - Apachelucene4のカスタムトークナイザー

1 に答える 1

Related

Reference