8

私は14の機能を持つデータセットを持っています.性別と婚姻状況がカテゴリ変数である以下のようなものはほとんどありません.

height,sex,maritalStatus,age,edu,homeType

SEX
         1. Male
         2. Female

MARITAL STATUS
         1. Married
         2. Living together, not married
         3. Divorced or separated
         4. Widowed
         5. Single, never married

現在、R の rpart ライブラリを使用して、次を使用して分類ツリーを構築しています。

rfit = rpart(homeType ~., data = trainingData, method = "class", cp = 0.0001)

これにより、性別や婚姻状況を要因として考慮しない決定木が得られます。

私はこれに as.factor を使用することを考えています:

sex = as.factor(trainingData$sex)
ms = as.factor(trainingData$maritalStatus)

しかし、この情報を rpart に渡す方法がわかりません。rpart() の data 引数は「trainingData」データ フレームを取り込むためです。このデータ フレームにある値を常に取得します。私はRに少し慣れていないので、これについて誰かの助けをいただければ幸いです。

4

2 に答える 2

10

trainingDataデータ フレームに直接変更を加えてから、rpart().

trainingData$sex = as.factor(trainingData$sex)
trainingData$maritalStatus = as.factor(trainingData$maritalStatus)
rfit = rpart(homeType ~., data = trainingData, method = "class", cp = 0.0001)
于 2014-11-14T14:37:29.333 に答える