12

検索エンジンが検索文字列の小さなタイプミスを処理し、正しい結果を返す方法が必要です。

ElasticSearch のドキュメントによると、テキスト クエリのあいまい一致に関連する値は、 fuzzinessmax_expansions、およびprefix_lengthの 3 つです。

残念ながら、これらのパラメーターが正確に何をするのか、そしてそれらの適切な値が何であるかについて、利用できる詳細はあまりありません。あいまいさは 0 から 1.0 の間の浮動小数点数であると想定されており、他の 2 つは整数であることは知っています。

これらのパラメーターの合理的な「開始点」の値を推奨できる人はいますか? 試行錯誤して調整する必要があると確信していますが、タイプミスやスペルミスを正しく処理するための大まかな値を探しているだけです。

4

2 に答える 2

8

Fuzzy Query docによると、デフォルト値は0.5min_similarity (あいまいオプションのように見えます)、 max_expansionsおよびprefix_lengthの「無制限」です0

この回答は、 min_similarityオプションを理解するのに役立ちます。0.5良いスタートのようです。

prefix_lengthmax_expansionsはパフォーマンスに影響します: デフォルト値で試して開発することはできますが、スケーリングしないことを確認してください ( lucene 開発者は、 prefix_length のデフォルト値を 2 に設定することさえ検討していました)。ベンチマークを実行して、特定のケースに適した値を見つけることをお勧めします。

于 2012-08-30T21:09:43.883 に答える