algorithm - バックプロパゲーションは、逆自動微分とどのように同じ (または同じでない) のですか?

Question

バックプロパゲーションのウィキペディアのページには、次の主張があります。

勾配を計算するためのバックプロパゲーションアルゴリズムは何度も再発見されており、逆累積モードでの自動微分と呼ばれるより一般的な手法の特殊なケースです。

誰かがこれについて説明して、素人の言葉で言えますか? 差別化されている機能は何ですか？「特例」とは？使用されるのは随伴値自体ですか、それとも最終的な勾配ですか?

更新:これを書いてから、これがDeep Learning bookのセクション 6.5.9でカバーされていることがわかりました。https://www.deeplearningbook.org/を参照してください。また、Haber と Ruthotto による「深層ニューラルネットワークの安定したアーキテクチャ」というテーマについては、この論文が有益であることがわかりました。

score 2 · Accepted Answer

「差別化されている機能は何ですか？「特殊なケース」とは何ですか？

バックプロパゲーションとリバースモード AD の最も重要な違いは、リバースモード AD が R^n -> R^m からベクトル値関数のベクトルヤコビアン積を計算するのに対し、バックプロパゲーションは R からスカラー値関数の勾配を計算することです。 ^n -> R。したがって、バックプロパゲーションは、スカラー関数のリバースモード AD の特殊なケースです。

ニューラルネットワークをトレーニングするときは、常にスカラー値の損失関数があるため、常にバックプロパゲーションを使用しています。これが微分される機能です。backprop はリバースモード AD のサブセットであるため、ニューラルネットワークをトレーニングするときにリバースモード AD も使用しています。

「使用されるのは随伴値そのものですか、それとも最終的な勾配ですか?」

変数の随伴は、その変数に関する損失関数の勾配です。ニューラルネットワークのトレーニングを行う場合、損失に関するパラメーター (重み、バイアスなど) の勾配を使用してパラメーターを更新します。したがって、アジョイントを使用しますが、パラメーターのアジョイントのみを使用します (パラメーターの勾配に相当します)。

algorithm - バックプロパゲーションは、逆自動微分とどのように同じ (または同じでない) のですか?

2 に答える 2

Related

Reference