回帰モデルをトレーニングしたいので、ランダム フォレスト モデルを使用します。ただし、データセットに非常に多くの機能があるため、機能の選択も行う必要があり、すべての機能を使用すると過剰適合するのではないかと心配しています。私のモデルのパフォーマンスを評価するために、私は 5 倍の交差検証も実行します。これらの次の 2 つのアプローチに関する私の質問は正しく、なぜですか?
1- データを 2 つの半分に分割し、前半で機能選択を行い、これらの選択した機能を使用して、残りの半分で 5 倍交差検証 (CV) を実行します (この場合、5 つの CV は選択した同じ機能をまったく使用します)。 )。
2- 次の手順を実行します。
1- データをトレーニング用に 4/5 に分割し、テスト用に 1/5 に分割します 2- このトレーニング データ (完全なデータの 4/5) を 2 つの半分に分割します: a-) 前半でモデルをトレーニングし、使用します特徴選択を行うためのトレーニング済みモデル。b-) トレーニング データセットの後半でモデルをトレーニングするために、最初の部分から選択した機能を使用します (これが最終的なトレーニング済みモデルになります)。3- データの残りの 1/5 でモデルのパフォーマンスをテストします (これはトレーニング フェーズでは使用されません)。トレーニング用に /5、テスト用に 1/5
私の唯一の懸念は、2 番目の手順で 5 つのモデルが作成され、最終モデルの機能がこれら 5 つのモデルの上位機能の結合になることです。特に最終モデルは 5 倍の各モデルとは異なる機能を持っているため、最終モデルの最終的なパフォーマンス (5 CV の各モデルの選択された機能の結合であるため)