ある程度の成功を収めた製品を推奨するアルゴリズムを実装したので、現在、このアルゴリズムの初期入力データを計算する方法を検討しています。
私の目的は、ユーザーが何らかの履歴を持っている各製品のスコアを計算することです。
私が現在収集しているデータ:
- ユーザー注文履歴
- 匿名ユーザーと登録ユーザーの両方の製品ページビュー履歴
このデータはすべてタイムスタンプが付けられます。
私が探しているもの
私が提案を探していることがいくつかあります。理想的には、この質問は、単一の「正しい」答えを目指すのではなく、議論のためにもっと扱われるべきです。
- 製品への関心を直接示唆する可能性のある、ユーザーのために収集できる追加データ
- このデータを各製品のスコアに変換するためのアルゴリズム/方程式
私が探していないもの
この質問が間違った種類の回答で狂わされるのを避けるために、各ユーザーのこのデータを取得したら、次のようにします。
- 距離スコアのピアソン係数を使用して、k-meansクラスタリングアルゴリズムを使用して多数のユーザークラスター(現時点では21)を生成します
- 各ユーザー(オンデマンド)について、クラスター内で最も類似しているユーザーと最も類似していないユーザーを探し、任意の深さで繰り返すことにより、類似ユーザーのグラフを計算します。
- ユーザーのグラフ内の他のユーザーの好みに基づいて、各製品のスコアを計算する
- スコアを並べ替えて推奨事項のリストを返す
基本的に、入力データを取得したらどうするかについてのアイデアは探していません(後でさらにサポートが必要になる場合がありますが、この質問のポイントではありません)。この入力データを生成する方法についてのアイデアだけです。そもそも