分散 mahout レコメンダー ジョブorg.apache.mahout.cf.taste.hadoop.item.RecommenderJob
が csv ファイルをどのように処理したか疑問に思っていました。重複および 3 重の user,item エントリが存在するが、設定値が異なります。たとえば、次のようなエントリを持つ .csv ファイルがあるとします。
1,1,0.7
1,2,0.7
1,2,0.3
1,3,0.7
1,3,-0.7
Mahout のデータモデルはこれをどのように処理しますか? 特定のユーザー、アイテム エントリのプリファレンス値を合計しますか (たとえば、ユーザー アイテム 1,2 のプリファレンスは (0.7 + 0.3) になります)、または値を平均しますか (たとえば、ユーザー アイテム 1,2 のプリファレンスは(0.7 + 0.3)/2) または、検出された最後の user,item エントリがデフォルトになります (たとえば、user 1,2 の場合、優先値は 0.3 に設定されます)。
複数のプリファレンス メトリック (アイテム ビュー、いいね、嫌い、ショッピング カートへの保存など) に基づいたレコメンデーションを検討しているため、この質問をします。データモデルが好みの値を線形の重みとして扱うと便利です (たとえば、アイテム ビューとウィッシュ リストに保存すると、アイテム ビューよりも好みのスコアが高くなります)。データモデルがすでに合計によってこれを処理している場合、複数のメトリックに基づいて合計スコアを並べ替えて計算するための追加の map-reduce の雑用を省くことができます。この点で mahout .csv データモデルの動作について誰かが提供できる説明をいただければ幸いorg.apache.mahout.cf.taste.hadoop.item.RecommenderJob
です。ありがとう。