java - lucene 4.0 で ngram トークナイザーを使用するには?

Question

スペースのないテキストを含む大きなテキストファイルのインデックス作成に取り組んでいます。現在、長さ12の文字列を生成するngramメソッドがあり、それらにインデックスを付けています。検索するのと同じ方法で、ユーザーから文字列を取得し、12 個の ngram を生成し、それを使用してクエリを作成します。検索では、lucene に存在する ngram トークナイザーについてお読みください。しかし、多くの例を見つけることができませんでした。

lucene 4.0 で ngram トークナイザーを実装するには??

score 7 · Accepted Answer

おそらく最も簡単な使用方法NGramTokenizerは、このコンストラクターを使用して、リーダーと最小および最大のグラムサイズを取得することです。アナライザーのドキュメントの例のように、アナライザーに組み込むことができます。何かのようなもの：

Analyzer analyzer = new Analyzer() {
 @Override
  protected TokenStreamComponents createComponents(String fieldName, Reader reader) {
    Tokenizer source = new NGramTokenizer(reader, 12, 12);
    TokenStream filter = new LowercaseFilter(source);
    return new TokenStreamComponents(source, filter);
  }
};

java - lucene 4.0 で ngram トークナイザーを使用するには?

1 に答える 1

Related

Reference