私は rpart を使用して、バイナリ応答を使用して教師付き決定木モデルをトレーニングしています。結果の問題は、一部の機能が非単調な方法で複数回分割されることです。たとえば、特徴 A は 3 つの区間 [0,0.4]、[0.4,0.6]、[0.6,1] に分割され、それぞれ次の応答 -1,1,-1 に対応します。各機能が一度に分割され、バイナリ形式で分割されることをお勧めします。Rでそれを行う方法はありますか?
例を示します。
SAT スコアから大学中退率を予測することに関心があるとします。次に、R のツリーまたは rpart パッケージにより、次のモデルが得られる可能性があります。
1. SAT > 1100: no dropout
2. SAT <= 1100:
3. SAT > 900: dropout
4. SAT <= 900: no dropout
これは、トレーニング データを考えると、最良の二分木モデルかもしれません。SAT スコアとドロップアウト確率の関係は単調でなければならないというドメイン知識を注入し、ドロップアウト確率を決定するための単一の SAT しきい値があることを強制したいと考えています。
したがって、私の質問は、R で上記の意味で単調性を強制する方法があるかどうかです。