1

gbm.stepR の dismo パッケージ (GBM 用) を使用して、ブーストされた回帰ツリー モデルを構築しています。私はもともとカテゴリ変数を因数としてコーディングしていましたが、因数をダミーのバイナリ変数 (存在する場合は 1、存在しない場合は 0) としてコーディングすると、アルゴリズムが再帰的なバイナリ分割を実行しやすくなると言われました。

しかし、今日は、因子を含むデータセット (320 回の実行) とダミー変数を含む他のデータセット (さらに 320 回の実行) について、学習率、ツリーの複雑さ、およびバッグ割合の組み合わせを多数実行しました。

一般的な内訳を示すために、4 つのカテゴリ変数がありました。

1) 最初のカテゴリーには 4 つのレベルがあり、4 つの個別の 1/0 の組み合わせに分割されました。

2) 2 番目は (1) と同じです。

3) 3 番目には 3 つのレベルがあり、3 つの別々の 1/0 の組み合わせに分割されました。

4) 最後のカテゴリ変数には 2 つのレベルがありました。つまり、2 1/0 の組み合わせです。

すべての実行を比較した後、因子でコード化されたデータセットは、説明された逸脱の点で、毎回 (320 回) バイナリ ダミー変数よりも 1.5​​ ~ 3% 優れていました。

ダミー変数がモデルによりよく適合すると予想されるのはなぜでしょうか? dismo舞台裏でダミー変数を自動的に作成しますか?

ありがとう。

4

0 に答える 0