1

過去の顧客購入データの 300,000 レコードのセットがあります。最良の顧客を特定するために、SSAS データ マイニング プロジェクトを開始しました。

データの分割: -90% 非購入者 -10% 購入者

SSAS のさまざまなアルゴリズム (デシジョン ツリーとニューラル ネットワークが最高のリフトを示した) を使用して、データを調査しました。

このプロジェクトの目標は、製品を購入する可能性が最も高い顧客を特定/スコアリングすることです。

現在、私はこの目的のためにすべての記録を使用しています。プロジェクトに何かが欠けているように感じます。現在、データマイニングに関する本を 2 冊読んでいます。どちらも、データ マイニングを異なるセットに分割することについて語っています。ただし、実際に分割する方法を説明しているものはありません。

5 つのレコードを 3 つのセットに分割し、ssas アルゴリズムを再実行する必要があると思います。

主な質問:

  1. トレーニング セット、検証セット、テスト セットにデータを分割するにはどうすればよいですか?
  2. 製品を購入する可能性が最も高いか、製品を購入する可能性が最も低いかに従って、顧客にスコアを付けるにはどうすればよいですか。
4

1 に答える 1