2

シグモイド、タンなどのさまざまな活性化関数があります。また、グエンとウィドロー、ランダム、正規化、定数、ゼロなどの初期化関数もいくつかあります。したがって、これらは顔検出に特化したニューラルネットワークの結果に大きな影響を与えます。 ?現在、Tanh活性化関数を使用しており、すべての重みを-0.5から0.5までランダム化しています。これが最善のアプローチかどうかはわかりませんが、毎回ネットワークをトレーニングするのに4時間かかるので、実験するよりもここで質問したいと思います。

4

1 に答える 1

2

数百のデータケースを取り、ユニットのアクティベーション値の平均と標準偏差を確認します。tanhシグモイドの飽和レジームから抜け出したい。

さまざまな合理的な初期化スキームがソリューションの品質に大きな影響を与えるとは思えません。間隔[-1/sqrt(N)、+ 1 / sqrt(N)]で重みが均一になるように初期化するだけで十分です。ここで、Nは着信接続の数です。

そうは言っても、大きな違いを生む傾向があるのは、RBMまたはオートエンコーダーとしてネットワークの重みを事前にトレーニングすることです。これは、単一の隠れ層ニューラルネットでも役立ちますが、より深いネットでははるかに重要です。使用しているアーキテクチャについては言及していません。その情報により、質問に対するより役立つ回答が得られます。

このペーパーでうまく説明されているように見える新しい初期化ルールもあり ます。http ://www.iro.umontreal.ca/~lisa/publications2/index.php/publications/show/447 このペーパーでは、あなたが簡単にチェックできる上記で私がほのめかしていた悪い初期化の症状。

要約すると、[-1 / sqrt(N)、+ 1 / sqrt(N)]のユニフォームはそれほど悪くはなく、リンク先の論文で言及されているものでもありません。それらのいずれかを使用する場合は、あまり心配する必要はありません。非常に重要なのは、ウェイトをオートエンコーダー(または制限付きボルツマンマシン)として事前トレーニングすることです。これは、隠れ層が1つしかない場合でも調べる必要があります。

重みをRBMとして事前トレーニングする場合は、ロジスティックシグモイドに切り替えて、問題にぶつかることなく、小さな標準偏差のガウス分布から重みを初期化することもできます。

于 2010-04-30T20:59:13.880 に答える