私は14の機能を持つデータセットを持っています.性別と婚姻状況がカテゴリ変数である以下のようなものはほとんどありません.
height,sex,maritalStatus,age,edu,homeType
SEX
1. Male
2. Female
MARITAL STATUS
1. Married
2. Living together, not married
3. Divorced or separated
4. Widowed
5. Single, never married
現在、R の rpart ライブラリを使用して、次を使用して分類ツリーを構築しています。
rfit = rpart(homeType ~., data = trainingData, method = "class", cp = 0.0001)
これにより、性別や婚姻状況を要因として考慮しない決定木が得られます。
私はこれに as.factor を使用することを考えています:
sex = as.factor(trainingData$sex)
ms = as.factor(trainingData$maritalStatus)
しかし、この情報を rpart に渡す方法がわかりません。rpart() の data 引数は「trainingData」データ フレームを取り込むためです。このデータ フレームにある値を常に取得します。私はRに少し慣れていないので、これについて誰かの助けをいただければ幸いです。