ユーザーがアイテムを「好き」と「嫌い」にできるウェブサイトを持っています。
そのため、各アイテムについて、「いいね」の総数や「いいね」の投票総数の割合などのデータがあります。
ユーザーに表示するスコアを 1 つだけ計算したいと思います。item_A は 90% の「いいね」を持ち、item_B は 80% の「いいね」を持っている可能性がありますが、item_B の合計投票数が 10,000 票で、item_A しか投票していない場合、item_B は item_A の前にランク付けする必要があるため、% だけを使用しても機能しません。総投票数1,000票。
同様に、合計の「いいね」数だけを使用しても機能しません。アイテムには多数の「いいね」が含まれる可能性がありますが、「いいね」の割合が低い場合、そのアイテムは非常に高くランク付けされるべきではないためです。
上記のデータから単一のスコアを作成するのに適したアルゴリズムは何でしょうか?
理想的には、スコアは何らかの方法で「意味のある」または「正規化」されている必要があります。たとえば、IMDB にアクセスして、映画のスコアが 8/10 であることを確認した場合、それが良い映画であることがすぐにわかります。一方、1,370 というスコアが表示された場合、それが良いか悪いかは必ずしもわかりません。