通常のクリギングには gstat パッケージを使用し、walker lake データ (データ サイズ = 470) を使用しています。各試行でそのデータからランダムに 20 個を取得し、50 ~ 450 個のデータセットからランダムに選択されたトレーニング データセットの rmse を計算しました。次に、各データセットの平均を計算しました。結果は以下の通り――
trial Index training points avg. rmse
--------------------------------------------------------
1 50 43.5936
2 100 40.3413
3 150 34.8842
4 200 28.1230
5 250 28.3111
6 300 30.9915
7 350 30.8903
8 400 28.3148
9 450 28.9578
私の質問は次のとおりです。
1) RMSE が波打っている理由。トレーニング データを増やしても常に減少しないのはなぜですか?
2) つまり、トレーニング データセットが 200 の場合、RMSE が最も低くなるため、クリギングに大きなデータセットは必要ありません。
返信を待っています。