2

これは私の最初のデータ マイニング プロジェクトです。SAS Enterprise miner を使用して、分類器のトレーニングとテストを行っています。

私は自由に使える3つのファイルを持っています、

  1. トレーニング ファイル: 85 個の入力変数と 1 個のターゲット変数、5800 以上の観測値
  2. 予測ファイル: 85 個の入力変数と 4000 個の観測値
  3. 検証ファイル: 2 番目のファイルの正しい予測を含む 1 つの変数。これは学術的なプロジェクトであるため、このファイルは、私たちが良い仕事をしているかどうかを教えてくれるものです。

私の問題は、データセットが不均衡であることです (トレーニング ファイルのターゲット変数の 0 の 95% と 1 の 5%)。当然、次のリンクで説明されているように、「サンプリングノード」を使用してモデルを再サンプリングしようとしました

これが私が使用した2つのアプローチであり、わずかに異なる結果が得られます。しかし、ここに私が得ている一般的な不満足な結果があります:

  • リサンプリングなし: モデルは、4000 回の観測で 10 人未満の要請された個人 (ターゲット変数 = 1) を予測します
    • リサンプリングあり : モデルは、4000 回の観測で約 1500 人の要請された個人を予測します。

100 人から 200 人の募集された個人を探して、受け入れられると見なされるモデルを作成してもらいます。

なぜ私たちの予測がこのように大きく外れていると思いますか? また、この状況をどのように改善できますか?

これは両方のモデルのスクリーンショットです

モデル1 モデル 2

4

1 に答える 1