machine-learning - 使用状況のクラスタリングのためのデータの準備

Question

データセット: 個々の顧客が毎日製品を使用する分数が与えられ、一般的な使用パターンを見つけるためにこのデータをクラスター化しようとしています。

私の質問: たとえば、1 年間使用レベルの高いパワーユーザーが、データを終了する前にデバイスを 1 か月しか使用できなかった別のパワーユーザーと同じように見えるように、データをフォーマットするにはどうすればよいですか?コレクション？

ここまでで、各顧客を配列に変換しました。各セルは、その日に使用された分数です。この配列は、ユーザーが最初に製品を使用したときに始まり、ユーザーが最初に使用した 1 年後に終了します。セル内のすべてのエントリは、クラスタリングモデルの double 値 (使用される 200.0 分など) である必要があります。データ収集の最終日以降のすべてのセル/日を -1.0 または NULL に設定することを検討しました。これらのいずれかが有効なアプローチですか? そうでない場合、あなたは何を提案しますか？

score 1 · Accepted Answer

両方のユーザー (製品を 1 年間毎日頻繁に使用するユーザーと、1 か月間製品を頻繁に使用するユーザー) が必要な問題については、値が次のような新しいエントリを作成します。

avg_usage per time_bin

time_bin は、月、日、またはニーズに最適な別の時間ビンにすることができます。このようにして、製品を使用するユーザー (たとえば、1 日あたり 200 分を 1 年間使用するとします) は、次のようになります。

200 * 30 * 12 / 12 = 6000 minutes per month

先月参加した他のユーザーも、まったく同じ使用量で次のようになります。

200 * 30 * 1 / 1 = 6000 minutes per month.

このように、製品を使い始めた時期は関係ありません。重要なのは使用率だけです。

あなたが考慮に入れるかもしれない重要なことは、製品がしばらくの間忘れられるかもしれないということです. たとえば、コンピューターで、私は休暇で不在です。当時、私は自分のコンピューターを使用していませんでしたが、この製品の一般的な使用の影響は (おそらく) ありません。したがって、データ、製品、および直感に基づいて、私が言及したようなギャップを取り除くことを検討し、計算内で考慮しないでください.

ユーザーがあなたの製品を使用した時間の長さは、何かのシグナルである可能性がありますが、実際に彼が少し前に使い始めたばかりで、今日までまだ使用している場合は、それを考慮する必要があるかもしれません。この平均ビニング手法が役立つ場合があります。

machine-learning - 使用状況のクラスタリングのためのデータの準備

1 に答える 1

Related

Reference