r - naiveBayes (e1071) による分類が機能しない ($levels は NULL を返す)

Question

データセットを分類するためにnaiveBayes (e1071 http://en.wikibooks.org/wiki/Data_Mining_Algorithms_In_R/Classification/Na%C3%AFve_Bayes ) を使用します (分類クラス: "class" 0/1)。これが私がすることです：

library(e1071)
arrhythmia <- read.csv(file="/home/.../arrhythmia.csv", head=TRUE, sep=",")

#devide into training and test data 70:30
trainingIndex <- createDataPartition(arrhythmia$class, p=.7, list=F)
arrhythmia.training <- arrhythmia[trainingIndex,]
arrhythmia.testing <- arrhythmia[-trainingIndex,]

nb.classifier <- naiveBayes(class ~ ., data = arrhythmia.training)
predict(nb.classifier,arrhythmia.testing[,-260])

分類子は機能しません。ここに私が得るものがあります:

> predict(nb.classifier,arrhythmia.testing[,-260])
factor(0)
Levels: 

> str(arrhythmia.training)
'data.frame':   293 obs. of  260 variables:
 $ age                         : int  75 55 13 40 44 50 62 54 30 46 ...
 $ sex                         : int  0 0 0 1 0 1 0 1 0 1 ...
 $ height                      : int  190 175 169 160 168 167 170 172 170 158 ...
 $ weight                      : int  80 94 51 52 56 67 72 58 73 58 ...
 $ QRSduration                 : int  91 100 100 77 84 89 102 78 91 70 ...
 $ PRinterval                  : int  193 202 167 129 118 130 135 155 180 120 ...
 # and so on (260 attributes)

> str(arrhythmia.training[260])
'data.frame':   293 obs. of  1 variable:
 $ class: int  1 0 1 0 0 1 1 1 1 0 ...


> nb.classifier$levels
NULL

含まれているデータセット (虹彩) を使用しようとしましたが、すべて正常に動作します。私のアプローチの何が問題になっていますか？

score 7 · Accepted Answer

クラス変数を因子として扱うようにしてください。すなわち

nb.classifier <- naiveBayes(as.factor(class) ~ ., data = arrhythmia.training)

ちなみに、予測呼び出しからクラス変数を除外する必要はありません。

score 1 · Accepted Answer

文字列で構成されるデータフレーム内のすべての変数は、因子として扱われる必要があります。

変数が要因でない場合は、次のコマンドを使用します。

    df$var1 <- as.factor(df$var1)

これにはクラス変数が含まれます。

注: 1 つの変数が数値の場合、それを因子に変換する必要はありません。

r - naiveBayes (e1071) による分類が機能しない ($levels は NULL を返す)

2 に答える 2

Related

Reference