一般に、デシジョン ツリー モデルを初めて使用していますが、ツリーを実行して得た出力が期待どおりかどうかわかりません。データセットには 700 を超える予測変数が用意されています。
rpart パッケージを使用して、次のステートメントを発行しました。
data_rpart <- rpart(GOOD~.,data=data_Train)
出力は、以下に示すように、2 つの主要な予測変数 (24 か月のトランザクションと 12 か月の訪問) のみを示しています。
Rule number: 5 [GOOD=0.214780600461894 cover=2165 (15%)]
trans_24mth< 4.5
trans_24mth>=2.5
Rule number: 7 [GOOD=0.511111111111111 cover=990 (7%)]
trans_24mth>=4.5
visit_12mth>=10.5
Rule number: 6 [GOOD=0.307862679955703 cover=903 (6%)]
trans_24mth>=4.5
visit_12mth< 10.5
SAS に適合した以前のロジスティック回帰モデルから、これらの変数がモデルに関連していることがわかります。
私の質問は、モデルに表示される変数の数を制御できるかどうかです。現在、700 個の変数のうち、2 つの変数のみが表示されているようです。rpart ステートメントがルールでより多くの変数を表示するように強制する方法はありますか? これは、予測子としてトランザクション変数のみを示しています。しかし、データセットの人口統計学的/心理学的変数も、モデルの良い/悪いを識別するのに何らかの役割を果たすかどうかを確認したいと言いますか? よろしくお願いいたします。