スペースのないテキストを含む大きなテキスト ファイルのインデックス作成に取り組んでいます。現在、長さ12の文字列を生成するngramメソッドがあり、それらにインデックスを付けています。検索するのと同じ方法で、ユーザーから文字列を取得し、12 個の ngram を生成し、それを使用してクエリを作成します。検索では、lucene に存在する ngram トークナイザーについてお読みください。しかし、多くの例を見つけることができませんでした。
lucene 4.0 で ngram トークナイザーを実装するには??