検索中に各ドキュメントのスコアを計算する方法を定義するさまざまな類似性アルゴリズムを調べています。利用可能なアルゴリズムはここにリストされています: http://www.elasticsearch.org/guide/en/elasticsearch/reference/current/index-modules-similarity.html
私の問題は、ウィキペディアの記事や lucene API ドキュメントのクラスの説明を掘り下げるときに、それらを理解するのに問題があることです。ここで TF/IDF 類似度アルゴリズム (ElasticSearch のデフォルト) の説明に関する回答が本当に気に入っています:この ElasticSearch クエリのランキングの背後にある理由は何ですか? (だからこれは私がある程度理解している)。
誰かがそこに概説されている他のアルゴリズムに同様の簡単な説明を提供できますか? これらには以下が含まれます:
- bm25の類似性
- drf 類似性
- 類似性
前もって感謝します。