0

データセットが、次の属性を含む銀行 (ローンを予測するため) のものであると考えてみましょう。

> names(univ2)
[1] "age" "inc" "family" "edu" "mortgage" "ccavg" "cc" "cd"  "online" "securities" "infoReq" "loan"

ほとんどすべての属性を因子に変換し、残りは離散化関数、つまり age、inc、ccavg、および住宅ローンを使用して変換します。次に、それらの変数を因子に変換して、決定木アルゴリズムに渡します

age <- discretize(univ2$age, disc="equalfreq", nbins=10) 
age=as.factor(age$X)

Inc、CCavg、Mortgage についても同様です。5 ~ 12 の離散化範囲のビン値、つまり、属性ごとに合計 8 つのビン値を考えてみましょう。考えられる配置は 8P4 = 1680 です。毎回、TRAIN、TEST、EVALUATION データを DTree に渡し、精度の高い予測を取得できます。次の方法。

dtC50 <- C5.0(loan ~ ., data = train, rules=TRUE)
a=table(train$loan, predict(dtC50, 
                        newdata=train, type="class"))
rcTrain=(a[2,2])/(a[2,1]+a[2,2])*100

テストについても同様に、 eval を作成して rcTest と rcTrain を作成します。精度を

Recall in Training 91.26027 
Recall in Testing 94.11765 
Recall in Evaluation 93.37209

ここでの質問は、関数 (または他の方法) を使用してトレーニング データをモデル化し、上記の 8P4 のビン配置を使用してトレーニング、テスト、評価データを予測し、6 つの属性からなるデータフレームに出力を格納する方法はありますか?

1 ID                 : 1:1680
2 Bin Arrangement on (Age,Inc,CCavg,Mortgae) : (5,5,5,5)...........(10,11,12,5)
3 TrainAccuracy      : %'s
4 TestAccuracy       : %'s
5 EvaluationAccuracy : %'s
6 Is Test>Train      : 0 if does not satisfies, 1 if satisfies

配置やその他の間違いが間違っている場合は、修正してください。

この問題を解決する方法はありますか?

4

0 に答える 0