1

Rでランダムフォレスト回帰を実行しようとしていますが、いくつかの問題に遭遇し、それらのほとんどを自分で修正しましたが、この最後の問題を回避することはできません. 読み込みたいファイルのリストがありますが、問題ありません (for ループを使用しています)。

library(randomForest)
set.seed(51)

file<- c("file1","file2","file3")
targets<- c("X1.ts","ts2","ts3")

for (i in 1:length(file)){
d_names<-paste("C:\\location\folder\",drugs[i],".txt",sep="")
dataset<- read.table(d_names, header=TRUE, row.names=1)
ind<-sample(2,nrow(dataset), replace=TRUE)

#TRAINING DATASET1 PREDICTING DATASET2
train_one.rf<- randomForest(dataset[ind==1,][[1]] ~ .-targets[i], data=dataset[ind==1,], prob=c(0.7,0.3))
dset2.pred<- predict(train_one.rf, newdata=dataset[ind==2,])

#TRAINING DATASET2 PREDICTING DATASET1
train_two.rf<- randomForest(dataset[ind==2,][[1]] ~ .-targets[i], data=dataset[ind==2,], prob=c(0.7,0.3))
dset1.pred<- predict(train_two.rf, newdata=dataset[ind==1,])

}

ランダム フォレストの性質は、予測したい列を除いてデータをモデル化する必要があることです。そのためには、次を使用する必要があります。

dataset[ind==1,][[1]] ~ .-target[i]

これは、ランダム フォレストの実行ごとに (ターゲットからの) 列の名前を追加したいターゲット [i]です。私はそれを変数に割り当てようとしましたが、ループ変数もサブビングしましたが、役に立ちませんでした。R の数式部分には、私が持っているよりももう少し洗練された知識が必要だと思います。

事前にサンクス、

ジクロー

4

1 に答える 1

1

以下は、data1 と data2 の 2 つのデータセットに分割された mtcars データを使用したソリューションです。(ここに R はありませんfor loop)

data1<-mtcars[1:15,]
data2<-mtcars[16:nrow(mtcars),]
mydata<-list(data1,data2)

targets<-list("mpg~.","cyl~.")

Map(function(x) Map(function(y) randomForest(as.formula(y),data=x,importance=TRUE,proximity=TRUE), targets),mydata)

[[1]]
[[1]][[1]]

Call:
 randomForest(formula = as.formula(y), data = x, importance = TRUE,      proximity = TRUE) 
               Type of random forest: regression
                     Number of trees: 500
No. of variables tried at each split: 3

          Mean of squared residuals: 4.637522
                    % Var explained: 63.98

[[1]][[2]]

Call:
 randomForest(formula = as.formula(y), data = x, importance = TRUE,      proximity = TRUE) 
               Type of random forest: regression
                     Number of trees: 500
No. of variables tried at each split: 3

          Mean of squared residuals: 0.2455641
                    % Var explained: 89.04


[[2]]
[[2]][[1]]

Call:
 randomForest(formula = as.formula(y), data = x, importance = TRUE,      proximity = TRUE) 
               Type of random forest: regression
                     Number of trees: 500
No. of variables tried at each split: 3

          Mean of squared residuals: 10.90303
                    % Var explained: 78.93

[[2]][[2]]

Call:
 randomForest(formula = as.formula(y), data = x, importance = TRUE,      proximity = TRUE) 
               Type of random forest: regression
                     Number of trees: 500
No. of variables tried at each split: 3

          Mean of squared residuals: 0.1623937
                    % Var explained: 95.69


Warning messages:
1: In randomForest.default(m, y, ...) :
  The response has five or fewer unique values.  Are you sure you want to do regression?
2: In randomForest.default(m, y, ...) :
  The response has five or fewer unique values.  Are you sure you want to do regression?

: 内側のMap関数はターゲットのさまざまな要素に対して回帰を繰り返しますが、外側のMap関数は mydata のさまざまな要素に対して回帰を繰り返します。

于 2013-08-21T15:03:26.853 に答える