4

顧客の購入パターンに関する約 100,000 レコードのデータセットがあります。データセットには以下が含まれます

  • 年齢 (2 から 120 までの連続値) ですが、年齢範囲に分類する計画もあります。
  • 性別 (0 または 1)
  • 住所(6種類のみ、または1~6の数字でも表現可能)
  • 私のクラスの問題である好みの店(7つの店からのみ可能)。

だから私の問題は、年齢、性別、好みの店の場所に基づいて顧客を分類して予測することです。単純な決定木を使用しようとしましたが、それらの分類精度は以下で少し低くなっています。

ロジスティック回帰も考えていますが、性別や住所などの離散値についてはわかりません。ただし、いくつかのカーネルトリックを備えたSVMも想定していますが、まだ試していません。

では、これらの機能を使用して精度を高めるために、どの機械学習アルゴリズムを提案しますか?

4

2 に答える 2

11

問題は、名目変数を連続スケールで表現していることです。これにより、機械学習メソッドを使用すると、クラス間に(偽の)順序関係が課せられます。たとえば、アドレスを6つの可能な整数の1つとしてコーディングすると、アドレス1はアドレス3,4,5,6よりもアドレス2に近くなります。これは、何かを学ぼうとすると問題を引き起こします。

代わりに、6値のカテゴリ変数を、カテゴリ値ごとに1つずつ、6つのバイナリ変数に変換します。元の機能によって6つの機能が生成され、1つだけがオンになります。また、カテゴリ化すると情報が失われるため、年齢は整数値のままにしてください。

アプローチに関しては、(少なくとも最初は)大きな違いを生む可能性は低いです。実装が簡単な方を選択してください。ただし、すべてのアルゴリズムには学習精度に劇的な影響を与える可能性のあるパラメーターがあるため、テストセットで実行する前に、開発セットで何らかの相互検証パラメーター選択を実行するようにしてください。

于 2013-01-15T10:49:29.140 に答える
1

実際にデータを見て、ラベルと現在持っている機能の間に十分な差異があるかどうかを判断する必要があります。機能は少ないがデータは多いため、kNN のようなものがうまく機能する可能性があります。

同様の機能でも機能するため、協調フィルタリングを適応させて問題を解決できます。

于 2013-01-11T11:31:07.683 に答える