顧客の購入パターンに関する約 100,000 レコードのデータセットがあります。データセットには以下が含まれます
- 年齢 (2 から 120 までの連続値) ですが、年齢範囲に分類する計画もあります。
- 性別 (0 または 1)
- 住所(6種類のみ、または1~6の数字でも表現可能)
- 私のクラスの問題である好みの店(7つの店からのみ可能)。
だから私の問題は、年齢、性別、好みの店の場所に基づいて顧客を分類して予測することです。単純な決定木を使用しようとしましたが、それらの分類精度は以下で少し低くなっています。
ロジスティック回帰も考えていますが、性別や住所などの離散値についてはわかりません。ただし、いくつかのカーネルトリックを備えたSVMも想定していますが、まだ試していません。
では、これらの機能を使用して精度を高めるために、どの機械学習アルゴリズムを提案しますか?