13

バックプロパゲーションのウィキペディアのページには、次の主張があります。

勾配を計算するためのバックプロパゲーション アルゴリズムは何度も再発見されており、逆累積モードでの自動微分と呼ばれるより一般的な手法の特殊なケースです。

誰かがこれについて説明して、素人の言葉で言えますか? 差別化されている機能は何ですか?「特例」とは?使用されるのは随伴値自体ですか、それとも最終的な勾配ですか?

更新:これを書いてから、これがDeep Learning bookのセクション 6.5.9でカバーされていることがわかりました。https://www.deeplearningbook.org/を参照してください。また、Haber と Ruthotto による「深層ニューラル ネットワークの安定したアーキテクチャ」というテーマについては、この論文が有益であることがわかりました。

4

2 に答える 2

2

「差別化されている機能は何ですか?「特殊なケース」とは何ですか?

バックプロパゲーションとリバース モード AD の最も重要な違いは、リバース モード AD が R^n -> R^m からベクトル値関数のベクトル ヤコビアン積を計算するのに対し、バックプロパゲーションは R からスカラー値関数の勾配を計算することです。 ^n -> R。したがって、バックプロパゲーションは、スカラー関数のリバース モード AD の特殊なケースです。

ニューラル ネットワークをトレーニングするときは、常にスカラー値の損失関数があるため、常にバックプロパゲーションを使用しています。これが微分される機能です。backprop はリバース モード AD のサブセットであるため、ニューラル ネットワークをトレーニングするときにリバース モード AD も使用しています。

「使用されるのは随伴値そのものですか、それとも最終的な勾配ですか?」

変数の随伴は、その変数に関する損失関数の勾配です。ニューラル ネットワークのトレーニングを行う場合、損失に関するパラメーター (重み、バイアスなど) の勾配を使用してパラメーターを更新します。したがって、アジョイントを使用しますが、パラメーターのアジョイントのみを使用します (パラメーターの勾配に相当します)。

于 2020-01-28T17:33:39.093 に答える