statistics - 機能の選択と交差検証

Question

回帰モデルをトレーニングしたいので、ランダムフォレストモデルを使用します。ただし、データセットに非常に多くの機能があるため、機能の選択も行う必要があり、すべての機能を使用すると過剰適合するのではないかと心配しています。私のモデルのパフォーマンスを評価するために、私は 5 倍の交差検証も実行します。これらの次の 2 つのアプローチに関する私の質問は正しく、なぜですか?

1- データを 2 つの半分に分割し、前半で機能選択を行い、これらの選択した機能を使用して、残りの半分で 5 倍交差検証 (CV) を実行します (この場合、5 つの CV は選択した同じ機能をまったく使用します)。）。

2- 次の手順を実行します。

1- データをトレーニング用に 4/5 に分割し、テスト用に 1/5 に分割します 2- このトレーニングデータ (完全なデータの 4/5) を 2 つの半分に分割します: a-) 前半でモデルをトレーニングし、使用します特徴選択を行うためのトレーニング済みモデル。b-) トレーニングデータセットの後半でモデルをトレーニングするために、最初の部分から選択した機能を使用します (これが最終的なトレーニング済みモデルになります)。3- データの残りの 1/5 でモデルのパフォーマンスをテストします (これはトレーニングフェーズでは使用されません)。トレーニング用に /5、テスト用に 1/5

私の唯一の懸念は、2 番目の手順で 5 つのモデルが作成され、最終モデルの機能がこれら 5 つのモデルの上位機能の結合になることです。特に最終モデルは 5 倍の各モデルとは異なる機能を持っているため、最終モデルの最終的なパフォーマンス (5 CV の各モデルの選択された機能の結合であるため)

score 2 · Accepted Answer

完全なデータで CV を実行し (5 つの部分に分割し、分割ごとに異なるパーツの組み合わせを使用します)、次に cv-splits で機能選択を行い、次に選択の出力で RF を実行します。

理由: CV は異なるデータ分割でモデルをチェックしているため、モデルが過適合にならないようになっています。機能の選択はモデルの一部として表示できるため、オーバーフィッティングをチェックする必要があります。

CV でモデルを検証した後、データ全体をそれに適合させ、この単一モデルの変換を実行します。

また、オーバーフィッティングが心配な場合は、RF をツリーの深さと数のいずれかに制限する必要があります。CV は、ほとんどの場合、モデルの開発プロセスにおけるツールとしてのみ使用され、最終的なモデルにはすべてのデータが使用されます。

statistics - 機能の選択と交差検証

2 に答える 2

Related

Reference