過去の顧客購入データの 300,000 レコードのセットがあります。最良の顧客を特定するために、SSAS データ マイニング プロジェクトを開始しました。
データの分割: -90% 非購入者 -10% 購入者
SSAS のさまざまなアルゴリズム (デシジョン ツリーとニューラル ネットワークが最高のリフトを示した) を使用して、データを調査しました。
このプロジェクトの目標は、製品を購入する可能性が最も高い顧客を特定/スコアリングすることです。
現在、私はこの目的のためにすべての記録を使用しています。プロジェクトに何かが欠けているように感じます。現在、データマイニングに関する本を 2 冊読んでいます。どちらも、データ マイニングを異なるセットに分割することについて語っています。ただし、実際に分割する方法を説明しているものはありません。
5 つのレコードを 3 つのセットに分割し、ssas アルゴリズムを再実行する必要があると思います。
主な質問:
- トレーニング セット、検証セット、テスト セットにデータを分割するにはどうすればよいですか?
- 製品を購入する可能性が最も高いか、製品を購入する可能性が最も低いかに従って、顧客にスコアを付けるにはどうすればよいですか。