hadoop - 重複するユーザー、アイテムのエントリを持つ Mahout データモデルですが、設定値は異なります

Question

分散 mahout レコメンダージョブorg.apache.mahout.cf.taste.hadoop.item.RecommenderJobが csv ファイルをどのように処理したか疑問に思っていました。重複および 3 重の user,item エントリが存在するが、設定値が異なります。たとえば、次のようなエントリを持つ .csv ファイルがあるとします。

1,1,0.7
1,2,0.7
1,2,0.3
1,3,0.7
1,3,-0.7

Mahout のデータモデルはこれをどのように処理しますか? 特定のユーザー、アイテムエントリのプリファレンス値を合計しますか (たとえば、ユーザーアイテム 1,2 のプリファレンスは (0.7 + 0.3) になります)、または値を平均しますか (たとえば、ユーザーアイテム 1,2 のプリファレンスは(0.7 + 0.3)/2) または、検出された最後の user,item エントリがデフォルトになります (たとえば、user 1,2 の場合、優先値は 0.3 に設定されます)。

複数のプリファレンスメトリック (アイテムビュー、いいね、嫌い、ショッピングカートへの保存など) に基づいたレコメンデーションを検討しているため、この質問をします。データモデルが好みの値を線形の重みとして扱うと便利です (たとえば、アイテムビューとウィッシュリストに保存すると、アイテムビューよりも好みのスコアが高くなります)。データモデルがすでに合計によってこれを処理している場合、複数のメトリックに基づいて合計スコアを並べ替えて計算するための追加の map-reduce の雑用を省くことができます。この点で mahout .csv データモデルの動作について誰かが提供できる説明をいただければ幸いorg.apache.mahout.cf.taste.hadoop.item.RecommenderJobです。ありがとう。

hadoop - 重複するユーザー、アイテムのエントリを持つ Mahout データモデルですが、設定値は異なります

2 に答える 2

Related

Reference