最近https://arxiv.org/pdf/1904.09048.pdfautomated focal loss
から実装された高速rcnnタイプのシステムで作業しています
上記のリンクされた論文のセクション3.4. Regression
では、次のように述べています
ラベルは、分散が σ^2 のガウス分布によって、実際の正しいグラウンド トゥルースの周りに分布していると仮定します。
と
ただし、累積分布関数を正しく計算するには、タスクの分散 σ^2 を推定する必要があります。[...] 変数 σ^2 をネットワークの重みのようにトレーニングします。
タスク差異のデータがありませんσ^2
。
データがないとどうやって学習できるのか完全には理解できません。
単に変数を作成trainable
し、最適化が何をすべきかを知っていると仮定する必要がありますか?