0

問題は :

与えられた 50 個の製品を評価するよう求められた 5 人の独立したユーザーのセット。50 の製品すべてが、ある時点でユーザーによって使用された可能性があります。一部のユーザーは、特定の製品に対してより偏見を持っています。1 人のユーザーは調査を正確に完了せず、ランダムな値を提供しました。ユーザーがすべての製品を評価する必要はありません。4 つのサンプル データセットが与えられた場合、評価に基づいて製品をランク付けします

datset :
product #user1 #user2 #user3 #user4 #user5
 0        29    -        10   90     12 
 1         -    -         -    -      7
 2         -    -        95    6      1
 3         -    -         -    -      2
 4         -    -         -    -     50
 5         -    35       21    13     -
 6         -     -        -     -     5
 7         4     -        -    30     -
 8        11     -        -     -    14  
 .
 .
 .

商品ランキングの出し方。

これは、元の問題に非常に近い改造された問題です。

解決策: PCA を使用してデータを消去し、欠損値を埋めようとしましたが、NMF を適用しましたが、解決策がわかりません。

どんな助けでも深く感謝します

4

2 に答える 2

3

絶対スコアを気にせず、主に一貫した相対ランキングに関心がある場合は、問題をランク集計問題のインスタンスと見なすことができます: (部分的または合計) ランキングのリストが与えられた場合、コンセンサス ランキングを導出します。入力ランキングとの完全な不一致を最小限に抑えます。意見の不一致を公式化し、保持すべき合理的な条件を仮定するには、いくつかの方法が考えられます。そのような条件の 1 つの例はコンドルセ基準です。単純なペアワイズ多数決でアイテムが他のすべてのアイテムを打ち負かす場合、そのアイテムは 1 位にランク付けされます。

この優れた論文には、コンセンサス ランキング アプローチの優れた動機と文献レビューが含まれています。Kemeny 最適集約は、Kendall-Tau 距離、つまりリスト間のペアごとの不一致の合計数を最小化します。この最適な集約は NP 困難ですが、著者は合理的なヒューリスティックなアプローチを提案しています。

于 2016-05-10T07:40:09.410 に答える
0

この場合、次の 2 つの代入方法を使用できます。

  • 誰もが最初に試すように、最も可能性の高い値、つまり平均値を入力します。
  • 回帰による代入と呼ばれる他の属性に基づいて予測します。

実際、ユーザーが複数の製品をランク付けすることが多いこのデータセットには、2 番目の方法の方が適していると思います。

また、ユーザーに応じて別のデータセットがある場合は、このデータセットの欠損値の予測にも使用できます。

于 2014-11-14T16:21:41.667 に答える