“lasagne”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

235 参照

python - 再帰層による奇妙な勾配の結果

私は非常に基本的な再帰型ネットワークで実験を行っており、非常に奇妙な動作を見てきました。どこがうまくいかないかを絞り込むためにかなりの時間を費やしましたが、再帰層を使用すると、theano と有限微分によって計算される勾配が根本的に異なることがわかりました。ここで何が起こっているのですか？

これが私が抱えている問題の種類です：

n_class クラス間のラベルとともに、次元 n_feat の n_steps 特徴ベクトルの n_seq シーケンスがあります。ラベルは、シーケンスごとではなく、時間ステップごとです (したがって、n_seq*n_steps ラベルがあります)。私の目標は、モデルをトレーニングして、特徴ベクトルを正しく分類することです。

これが私の最小限の例です：

(実際には、データにはシーケンシャルな情報が含まれているため、再帰型ネットワークの方がうまくいくはずですが、この最小限の例では純粋にランダムなデータを生成します。これはバグを明らかにするのに十分です。)

2 つの最小限のネットワークを作成します。

1) 通常のフィードフォワード (再帰的ではない)。入力層とソフトマックスを含む出力層 (隠れ層なし) のみ。n_seq*n_steps の「独立した」特徴ベクトルの「バッチ」を考慮して、順次情報を破棄します。

2) 同一のネットワークですが、出力層は再帰的です。バッチのサイズは n_seq になり、各入力は n_steps 特徴ベクトルの完全なシーケンスになります。最後に、出力をサイズ n_seq*n_steps の「バッチ」に戻します。

再帰重みが 0 に設定されている場合、2 つのネットワークは同等である必要があります。実際、この場合、フィードフォワード重みのランダムな初期化に関係なく、両方のネットワークの初期損失が同じであることがわかります。有限微分を実装すると、フィードフォワードの重みの (初期の) 勾配が (本来あるべきように) 同じであることもわかります。ただし、theano から得られる勾配は根本的に異なります (ただし、リカレントネットワークの場合のみ)。

サンプル結果を含む私のコードは次のとおりです。

注：初めて実行すると、この警告が表示されます。何が原因かわかりませんが、私の問題に関連していると思います。警告: 厳密モードでは、必要なすべての共有変数を non_sequences の一部として渡す必要があります 'must be pass as a part of non_sequences', 警告)

どんな洞察も大歓迎です！

コード：

結果：