CIFAR 100 データセットで、densenet でヒンジ損失を使用しようとしています。学習はある点に収束し、その後は学習はありません。精度は、CrossEntropy 損失関数を使用した Densenet よりもはるかに低くなります。さまざまな学習率と重みの減衰を試しました。
ヒンジ損失で Densenet を適切にトレーニングできない理由についてのアイデアはありますか? Resnetでヒンジロスを問題なく使用できています。
CIFAR 100 データセットで、densenet でヒンジ損失を使用しようとしています。学習はある点に収束し、その後は学習はありません。精度は、CrossEntropy 損失関数を使用した Densenet よりもはるかに低くなります。さまざまな学習率と重みの減衰を試しました。
ヒンジ損失で Densenet を適切にトレーニングできない理由についてのアイデアはありますか? Resnetでヒンジロスを問題なく使用できています。