93

回帰タスクを実行しています - randomForest (R パッケージ) のデータを正規化 (またはスケーリング) する必要がありますか? また、目標値もスケーリングする必要がありますか? また、キャレット パッケージのスケール関数を使用したいのですが、データを元に戻す方法 (デスケール、非正規化) が見つかりませんでした。正規化/非正規化に役立つ他の関数 (任意のパッケージ内) について知りませんか? ありがとう、ミラン

4

6 に答える 6

100

いいえ、ランダム フォレストにはスケーリングは必要ありません。

  • RF の性質上、ロジスティック回帰や線形回帰、ニューラル ネットワークで使用されるアルゴリズムが機能しなくなることがありますが、収束と数値精度の問題はそれほど重要ではありません。このため、NN の場合のように、変数を共通のスケールに変換する必要はありません。

  • 各予測変数と応答の間の関係を測定する回帰係数の類似物は得られません。このため、可変測定スケールの影響を受ける係数の解釈方法を考慮する必要もありません。

于 2012-01-22T17:02:06.430 に答える
4

の回帰変数にスケーリングが必要であることを示唆する提案が、ヘルプ ページにも Vignette にも表示されませんrandomForestこの Stats Exchange の例では、スケーリングも使用していません。

私のコメントのコピー:scale関数は pkg:caret に属していません。「ベース」R パッケージの一部です。unscaleパッケージgrtおよびDMwRには変換を逆にする関数があります。または、単純に scale 属性を掛けてから center 属性値を加算することもできます。

「正規化」を行う必要がある理由についてのあなたの考えには、批判的な検討が必要な場合があります。非正規性のテストは、回帰が行われた後にのみ必要であり、適合度の方法論に正規性の仮定がない場合はまったく必要ない場合があります。だから:なぜあなたは尋ねているのですか?SO および Stats.Exchange での検索が役立つ場合があり ます引用#2 ; 引用#3

このboxcox関数は、分布が「あるべき」ものについての事前知識がなく、実際に変換を行う必要がある場合に一般的に使用される変換です。変換の適用には多くの落とし穴があるため、質問する必要があるという事実は、さらに相談したり、自習したりする必要があるかもしれないという懸念を引き起こします.

于 2012-01-22T14:19:49.687 に答える
1

データセットに相互作用を追加する場合、つまり、新しい変数が他の変数の関数 (通常は単純な乗算) であり、その新しい変数が何を表しているのかがわからない (解釈できない) 場合は、次の方法でこの変数を計算する必要があります。スケーリングされた変数。

于 2012-04-11T19:40:50.860 に答える
1

ランダム フォレストはinformation gain / gini coefficient、他の多くの機械学習モデル (k-means クラスタリング、PCA など) とは異なり、スケーリングの影響を受けない本質的に使用します。ただし、他の回答で示唆されているように、「ほぼ間違いなく」収束を早める可能性があります

于 2018-10-07T06:56:17.667 に答える