1

mahoutでは、GenericUserBasedRecommenderを設定していますが、今のところ、一般的な設定です。

アイテムの「設定」値を生成する際に、次の5つのデータポイントがあります。

ポジティブな関心

  • ユーザーがアイテムに変換しました(可能な限り高い関心の兆候)
  • 通常のように(ユーザーが興味を示した、たとえばボタンのように)
  • 興味のある間接的な表現(クリック、カーソルの動き、「眼球」の測定)

負の利息

  • 無関心(他のアイテムでアクティブなときにユーザーが無視したアイテム、無関心の漠然とした表現)
  • 積極的な嫌悪感(親指を下に向ける、ビューからアイテムを削除するなど)

これらのさまざまな属性をどの範囲で表現する必要があるか、1〜100のスケールを使用して説明しますか?

  • 「アクティブな嫌い」と「無関心」をそれぞれ1と5に近づけて、すべてのいいねを90〜100の範囲でクラスター化する必要がありますか?
  • 「無関心」と「間接的な関心の表現」を中心に近づける必要がありますか?20〜35の範囲の「無関心」と60〜70の範囲の「間接的な」のように?
  • 「ユーザーコンバージョン」はスケールを吹き飛ばし、他のものよりも頭と尾を高くする必要がありますか?のように:'ユーザー変換'@ 100、'あまり好きではない'@〜65、'嫌い'は1-10の範囲でクラスター化されていますか?
  • 1〜100のスケールでは、50は事実上「ヌル」ですか、それともデータポイントがまったくないのと同じですか。

最終的な答えは試行錯誤とデータの意味にあることは知っていますが、アルゴリズムに関する限り、アルゴリズムが機能するためには、関心と無関心の間のスケールをどの時点で傾ける必要があるかを理解しようとしています。ちゃんと。

4

1 に答える 1

3

この実装では、実際の範囲は重要ではありません。1-100はOK、0-1はOKなどです。ここで本当に重要なのは相対値だけです。

これらの値は、単純な(線形)加重平均によって推定されます。したがって、応答は「線形」である必要があります。アクションXがアクションYより2倍高いスコアを取得した場合、Xは実生活への関心の2倍の指標となるはずであるという直感と一致する必要があります。

開始するのに適切な場所は、頻度に応じて単純にサイズを設定することです。クリックからコンバージョンへの割合が2%の場合、コンバージョンの2%に相当するクリックを行う可能性があります。

私はあなたが提案する「無関心」信号を無視します。ノイズが多すぎて役に立たない可能性があります。

于 2012-08-31T06:32:49.830 に答える