1

高次元のデータ セットが与えられ、PCA またはその他の次元削減手法をデータに適用すると、多くの場合、センタリングと正規化が必要になります。トレーニング/テスト/検証セットに分割するデータ セットを指定すると、センタリングと正規化はトレーニング セットに対してのみ実行し、各変数の値 (平均値/標準偏差) を保存する必要があるようです。次に、検証/テストのエラー率を計算するときに、これらのパラメーターの固有の値ではなく、トレーニング データに対して計算された値に対応して、検証/テスト データ セットを中央に配置し、正規化する必要があります。これは一般的に正しいですか?

4

0 に答える 0