python - 検索 - キーワードが左端にどれだけ近いかに基づいて関連性を計算しますか?

Question

現在、ElasticSearch、Python/Django、およびDjango-Haystackを使用しています。

キーワードが左端にどれだけ近いかに基づいてアイテムをランク付けしたいと考えています。

例

アイテムは

Jeff is friends with John, Laura and Edward
Laura is friends with Francis, Drake, Jessica and Jeff
Edward is friends with Laura, Jeff and Jeff

ジェフがクエリの場合、次の結果が必要です

Jeff is friends with John, Laura and Edward
Edward is friends with Laura, Jeff and Jeff
Laura is friends with Francis, Drake, Jessica and Jeff

しかし、私はこれを取得します:

Edward is friends with Laura, Jeff and Jeff
Jeff is friends with John, Laura and Edward
Laura is friends with Francis, Drake, Jessica and Jeff

何か案は？

score 1 · Accepted Answer

elasticsearch にクエリを実行する_scoreと、各ドキュメントのフィールドが返されます。URL にexplain=onパラメーターを追加すると、スコアに関する説明も返されます。これにより、ドキュメントが上位にある理由とそうでない理由を理解できます。

いずれにせよ、最初のドキュメントには Jeff という単語が 2 回含まれているため、最高のスコアが得られると思います。3 番目の文書は、テキストフィールドが他の文書よりも長く、Jeff の一致のみが含まれているため、最後の文書です。これが Lucene スコアの計算方法です。たとえば、フィールドの長さがスコアに影響するという事実を無効にするなど、微調整することはできますが、Lucene コードを作成する意思がない限り、その背後にあるロジックを完全に変更することはできません。独自の LuceneSimilarity実装を作成して、カスタム .xml を使用して Elasticsearch にプラグインすることができますSimilarityProvider。この例を見てください。

python - 検索 - キーワードが左端にどれだけ近いかに基づいて関連性を計算しますか?

1 に答える 1

Related

Reference