-2

これは私の評価ベースのスコアリング プロファイルです。

"scoringProfiles":{ "name": "ratings",
    "functions": [
        {
            "type": "magnitude",
            "fieldName": "rating",
            "boost": 10,
            "interpolation": "linear",
            "magnitude": {
                "boostingRangeStart": 1,
                "boostingRangeEnd": 10,
                "constantBoostBeyondRange": false
            }
        }
    ]
}

検索して出てきた結果

RecID   Rating No.
 1      4.5
 2      4
 3      4
 4      5

RecID 4 とレーティング No. 5 が最後に来るのはなぜですか?

4

1 に答える 1

0

アイテムのスコアと最終的な並べ替え順序に影響を与えるものは多数あります。データセットを見ないとわかりませんが、考慮すべき点がいくつかあります。

スコアリング関数は「評価」フィールドに基づいてスコアに影響を与えますが、基本スコアはテキスト一致の関連性によって与えられます。

テキスト一致の関連性は、ドキュメント内およびドキュメント間で用語がどの程度共通しているかを考慮して計算されます (背景については、 http://en.wikipedia.org/wiki/Tf%E2%80%93idfを参照してください)。検索に複数の単語が含まれていた場合、ランキングに影響を与えた可能性のある 1 つのことは、ドキュメントの一部のサブセットにまれな用語が含まれていたことです。あなたの場合、単一の用語(「食品」)があったため、影響を与える可能性がある唯一の側面はテキストの長さです。個々の用語が大きなフレーズでどのように希釈されるかを説明するために、短いフレーズでの用語ヒットには、長いフレーズでのヒットよりも高いスコアが与えられます。小さなデータセットでは、これらの微妙な点がより目立つ傾向があり、スコアが近い場合、一方のドキュメントに他のドキュメントよりもいくつかの余分な用語が含まれていると、関連性が低くなります。

もちろん、それは私たちの問題でもあります。

特定のケースの詳細をさらに掘り下げて喜んでください。データセットの詳細 (ドキュメントの数、コンテンツのサンプルなど) が必要です。コンテンツを公開したくない場合は、ここまたはプライベート メールで行うことができます。

于 2014-10-29T10:09:15.580 に答える