machine-learning - LBFGS の代わりに、スパースオートエンコーダーで勾配降下法を使用

Question

Andrew Ng の講義ノートでは、彼らは LBFGS を使用していくつかの隠れた機能を取得しています。代わりに勾配降下法を使用して、同じ隠れた機能を生成できますか? 他のすべてのパラメーターは同じです。最適化アルゴリズムを変更するだけです。

LBFGSを使用すると、オートエンコーダーは講義ノートと同じ隠し機能を生成できますが、勾配降下を使用すると、隠しレイヤーの機能がなくなり、完全にランダムに見えます。

具体的には、コスト関数を最適化するために、1)コスト関数、2)各 Weight と Bias の勾配を実装します。そして、コスト関数を最適化するために、それらを scipy 最適化ツールボックスに投入します。そして、この設定により、適切な隠し機能が得られます。

しかし、勾配降下に変更すると。「Weight - Weight の勾配」と「Bias - Bias の勾配」を入れてみました。しかし、結果の隠れた機能は完全にランダムに見えます。

誰かが理由を知るのを手伝ってもらえますか? ありがとう。

score 1 · Accepted Answer

はい、代わりに SGD を使用できます。実際、実際には SGD が最も一般的な選択肢です。L-BFGS-B は、ニューラルネットワークをトレーニングするための一般的な方法ではありません。でも：

トレーニング方法のハイパーパラメータを微調整する必要があります。これは完全に異なる方法であるため、LBFGS に使用されたものと同じものを使用することはできません (完全ではありませんが、2 次ではなく 1 次の最適化を使用します)。
SGD にモーメンタムを含める必要があります。これは一種の 2 次近似を取得する非常に簡単な方法であり、(注意深く調整すると) 実際には実際の 2 次法と同じくらいうまく機能することが知られています。

machine-learning - LBFGS の代わりに、スパース オートエンコーダーで勾配降下法を使用