Elasticsearch 1.2.1 を使用しています。
Ngram トークナイザーを使用してドキュメントをトークン化しています。フィールドが非常に長い (200 ~ 500 文字) 可能性がある特別なユース ケースがあり、フィールドの任意のポイントからの長い (最大 200 文字) "含む" クエリをサポートしたいと考えています。
最大 260 文字の Ngram アナライザーから始めましたが、インデックス時間が遅すぎて容量が大きすぎることがすぐにわかったので、サイズを約 30 文字に減らしました。
ここで、30 文字を超えるトークンを小さなトークンに分割し、ユーザー検索を壊れたトークンに置き換えたいと考えています (より大きな Ngram インデックスを使用した場合よりも多くの結果が得られる可能性があることを知っています)。 .
この機能を実現するための推奨される方法は何ですか? クエリ文字列クエリを使用していることに注意してください。