3

これについてのご意見をお待ちしております。遺伝的プログラミングの助けを借りて回帰モデルを構築しています。

データの比率が 1:5 の場合、テスト データの RMSE がトレーニング データの RMSE よりも (はるかに) 低い場合、心配する必要がありますか?

テスト データは、24 個のデータ ポイントのセットから置換なしでランダムに抽出されます。モデルは遺伝的プログラミング手法を使用して構築されたため、GP ツリーのノード数によって正則化されたトレーニング RMSE を最小限に抑えるため、機能の数、モデリング フレームワークなどは異なります。

モデルは適合不足ですか?または、RMSE の代わりに MSE を最小化する必要があります (オプティマイザが最小値を見つけるのに十分であると仮定すると、MSE が正であり、MSE の最小値が RMSE の最小値と一致するのと同じだと思いました)?

Tks

4

1 に答える 1

1

では、モデルは24個のデータポイントのうち20個でトレーニングされ、残りの4個のデータポイントでテストされていますか?

私には、(はるかに)より多くのデータが必要であるように思われるので、より大きなトレインとテストセットを持つことができます。モデルがそのような少数のデータから学習できなかったように見えるので、テストセットのパフォーマンスが低いことに驚いていません。経験則として、機械学習では十分なデータを取得することはできません。より大きなデータセットを収集することは可能ですか?

于 2012-07-16T09:49:49.197 に答える