私は、
SpatialDropout2D(0.2)
5 つの Convolutional2D レイヤーのそれぞれの後にレイヤーを追加すると、最初の数エポックでのトレーニングと検証のエラーは、これらのドロップアウト レイヤーを使用しない同じネットワークよりもはるかに低くなります (他のすべては等しい)。中間結果がランダムにドロップアウトされた場合、最適化ルーチンが最小値を見つけるのにさらに問題が生じると予想されるため、これは直感に反するように思えます。
それで、私の観察はもっともらしいですか?もしそうなら、なぜですか?