Lucene ShingleFilter を使用して、文字列をさまざまなサイズのシングル (ngram) にトークン化できる場合:
"please divide this sentence into shingles"
なる:
shingles "please divide", "divide this", "this sentence", "sentence into", and "into shingles"
これを他のアナライザーと組み合わせて使用 して、見つかったバイグラムまたはトライグラムの周波数を返すことができるかどうかは誰にもわかりません。
"please divide this please divide sentence into shingles"
「分割してください」に対して2を返しますか?
私の文字列はデータベースから構築され、メモリ内の Lucene によってインデックス付けされ、保持されないことを付け加えておきます。Solr などの他の製品の使用は意図されていません。