4 つの異なる国からの画像の 40k 画像データセットがあります。画像には、屋外のシーン、都市のシーン、メニューなど、さまざまな主題が含まれています。深層学習を使用して画像にジオタグを付けたいと考えました。
学習タスクは簡単ではないため、3 つの conv->relu->pool レイヤーの小さなネットワークから始めて、さらに 3 つ追加してネットワークを深めました。
私の損失はこれを行っています(3層と6層のネットワークの両方で) ::
損失は実際にはスムーズに始まり、数百ステップで減少しますが、その後忍び寄り始めます.
私の損失がこのように増加する理由は何ですか?
私の初期学習率は 1e-6 と非常に低く設定されていますが、1e-3|4|5 も試しました。私は、クラスが異なる主題を持つ 2 つのクラスの小さなデータセットでネットワーク設計の健全性をチェックしましたが、損失は必要に応じて継続的に減少しています。列車の精度は約 40% で推移