machine-learning - Mahoutレコメンダー：GenericUserBasedRecommenderに適した相対的なプリファレンス値は何ですか？

Question

mahoutでは、GenericUserBasedRecommenderを設定していますが、今のところ、一般的な設定です。

アイテムの「設定」値を生成する際に、次の5つのデータポイントがあります。

ポジティブな関心

負の利息

これらのさまざまな属性をどの範囲で表現する必要があるか、1〜100のスケールを使用して説明しますか？

「アクティブな嫌い」と「無関心」をそれぞれ1と5に近づけて、すべてのいいねを90〜100の範囲でクラスター化する必要がありますか？
「無関心」と「間接的な関心の表現」を中心に近づける必要がありますか？20〜35の範囲の「無関心」と60〜70の範囲の「間接的な」のように？
「ユーザーコンバージョン」はスケールを吹き飛ばし、他のものよりも頭と尾を高くする必要がありますか？のように：'ユーザー変換'@ 100、'あまり好きではない'@〜65、'嫌い'は1-10の範囲でクラスター化されていますか？
1〜100のスケールでは、50は事実上「ヌル」ですか、それともデータポイントがまったくないのと同じですか。

最終的な答えは試行錯誤とデータの意味にあることは知っていますが、アルゴリズムに関する限り、アルゴリズムが機能するためには、関心と無関心の間のスケールをどの時点で傾ける必要があるかを理解しようとしています。ちゃんと。

score 3 · Accepted Answer

この実装では、実際の範囲は重要ではありません。1-100はOK、0-1はOKなどです。ここで本当に重要なのは相対値だけです。

これらの値は、単純な（線形）加重平均によって推定されます。したがって、応答は「線形」である必要があります。アクションXがアクションYより2倍高いスコアを取得した場合、Xは実生活への関心の2倍の指標となるはずであるという直感と一致する必要があります。

開始するのに適切な場所は、頻度に応じて単純にサイズを設定することです。クリックからコンバージョンへの割合が2％の場合、コンバージョンの2％に相当するクリックを行う可能性があります。

私はあなたが提案する「無関心」信号を無視します。ノイズが多すぎて役に立たない可能性があります。

1 に答える 1