0

次の要因がわかっている映画のリストがあります。

  • 今後映画を見たいと思っている人の数
  • 映画を見た人の数
  • 映画を楽しんだ人数
  • 映画を見て嫌いになった人の数
  • 映画のコメント数
  • 映画ページの (直接または検索エンジンからの) ページ ヒット数

上記の要因に基づいて、各映画の人気を計算する方法を探しています。そのような場合に人気値を計算するための既知の公式またはアルゴリズムはありますか? 好ましいアルゴリズムは、アイテムごとに以前に計算された人気値を更新するためのより効率的な方法を提供するアルゴリズムです。

4

2 に答える 2

2

基本的に、各要素の重要性に応じて、目的を達成する方法は無限にあります。

まず、データを正規化する必要があります。これを行う 1 つの方法は、各特徴が正規分布していると仮定し、各特徴の標準偏差と平均を見つけることです。(あなたの特徴は、映画を見た人の数、映画を楽しんだ人の数などです)。
sd (標準偏差) と mu (平均) を取得したら、 を使用して各ムービーの特徴を標準形式に簡単に変換できますnorm = (value-mu)/sd

  • 平均 (mu) の推定値は単純平均です。sum(x_i) / n
  • 標準偏差 (sd) の推定量は次のとおりです。sd = sqrt(Sum((x_i - mu)^2) / (n-1))

データを正規化したら、重み付けされた合計として評価を定義するだけで済みます。各機能は、その重要性に応じてブーストされます。

a1 * #watched + a2 * #liked + .... 

重みがわからないが、一連の映画に手動でグレードを付けたい場合は、教師あり学習を使用して、線形回帰を使用して (a1,a2,...,an) を見つけることができます。

于 2013-01-16T11:04:34.167 に答える
1

正解はありませんが、できるだけ現実に近いモデルを作るべきだと思います。次のことを考えてみましょう: P1=Proportion of people who watched and enjoyed it
P2=Proportion of people who disliked the movie P3=Proportion of people who watched and would like to see again P4=People who will watch it later but haven't seen it yet コメントの数だけでは、その映画がどれほど人気が​​あるかはわかりますが、その映画の良さはわかりません。賛成票と反対票)、またはコメントの数をそのまま使用することもできます(C)。

通常、ページ ヒット数は映画の人気を示す良い指標となるため、アルゴリズムで適切な重みを付ける必要があります。さらに、最近のページ ヒットには、1 年以上前のページ ヒットよりも重みを付ける必要があります。過去 3 日間 (N3)、先週 (N7)、先月 (N30)、昨年 (N365)、その他すべて (Nrest) のページ ヒット数を保持します。

私が言及した要素を使用してアルゴリズムを考え出します。[迅速な更新のために、加重平均とホーナーのルールのバリエーションを使用してみてください。頑張ってください。]

于 2013-01-16T11:36:50.583 に答える