私たちが一般的に二次導関数情報を使用しない理由は、ヘッセ行列がより多くのレイヤーと重みで非常に大きくなり、計算コストが高くなるため、ヘッセ行列を使用しない方法が好まれるためだと理解しています。私の質問は、文献で言及されている計算コストが、二次導関数が数値的に計算されているという仮定の結果であるかどうかです。代わりに、評価中の目的関数がきちんとした分析的な二次導関数を生成した場合、ニュートンベースの方法は、多数の隠れ層があってもANNパラメーターを推定するために計算上扱いやすいでしょうか? それとも、純粋にヘッセ行列のサイズであり、更新アルゴリズムのためにそれを反転する必要性/費用 (!) - 代わりに勾配ベースの方法を使用するための決定要因ですか?
1 に答える
0
2 次最適化手法を使用するには、ヘッセ行列の逆数を計算する必要があります。それには2つの問題があります:
Hessian には O(N 2 ) 個のパラメーターがあるため、(メモリと時間の複雑さの両方の点で) 計算が難しくなります。それぞれを O(1) 時間で計算したとしても (つまり、分析式を使用して導関数を計算したとしても)、それらの 2 次量を計算する必要があります。
行列反転は非常に遅い操作であり、ヘッシアンのすべての値を計算するよりもさらに時間がかかります (ガウス消去法の場合は O(N 3 )、たとえば の場合)。
于 2015-03-05T20:24:23.220 に答える