function - 神経活性化関数-ロジスティック/タン/などの違い

Question

私はいくつかの基本的なニューラルネットワークメソッド、特に活性化関数を書いていますが、数学に関する私のごみの知識の限界に達しています。それぞれの範囲（-1/1）（0/1）などは理解していますが、説明や実装が異なるため、混乱しています。

具体的には、シグモイド、ロジスティック、バイポーラシグモイド、タンなどです。

シグモイドは、範囲に関係なく、関数の形状を単純に記述していますか？もしそうなら、tanhは「シグモイド関数」ですか？

論文で「tanh」と比較した「bipolarsigmoid」を見てきましたが、同じコードで（さまざまなライブラリに）実装された両方の関数を見てきました。

（（2 /（1 + Exp（-2 * n）））-1）。それらはまったく同じものですか？

同様に、同じコードで実装されたロジスティックとシグモイドのアクティベーションを見てきました。

（1 /（1 + Exp（-1 * n）））。これらも同等ですか？

最後に、実際にはそれだけでも重要ですか？ウィキで非常によく似たシグモイド関数のプロットを見ることができます-これらのいずれかを使用できますか？他のものよりも計算がかなり速いように見えるものもあります。

score 9 · Accepted Answer

ロジスティック関数：e ^x /（e ^x + e ^c）

ロジスティック関数の特殊な（「標準」）ケース：1 /（1 + e ^-x）

バイポーラシグモイド：聞いたことがない。

タン：（e ^x -e ^-x）/（e ^x + e ^-x）

シグモイドは通常、形状（および限界）を指します。したがって、そうです、tanhはシグモイド関数です。ただし、状況によっては、特に標準のロジスティック関数を参照する場合があるため、注意が必要です。はい、任意のシグモイド関数を使用でき、おそらく問題なく実行できます。

（（2 /（1 + Exp（-2 * x）））-1）はtanh（x）と同等です。

score 5 · Accepted Answer

一般的に最も重要な違いは次のとおりです。tanhおよびlogisticvsstepまたはtruncatedのように連続的に微分可能な滑らかなb。競争対移籍c。シグモイドvsラジアルd。対称（-1、+ 1）と非対称（0,1）

一般に、隠れ層には微分可能な要件が必要であり、よりバランスの取れたtanhが推奨されることがよくあります。tanhの0は最速のポイント（最高の勾配またはゲイン）であり、トラップではありません。一方、ロジスティックの0は最低のポイントであり、負の領域に深く押し込むもののトラップです。放射（基底）関数は、典型的なプロトタイプからの距離であり、ニューロンの周りの凸状の円形領域に適していますが、シグモイド関数は、線形に分離し、半分のスペースに適しています-凸状領域に適切に近似するには、多くの関数が必要になります。円形/球形の領域は、シグモイドに対して最悪であり、放射状に対して最良です。

一般に、+ /-バランスの中間層でtanhを実行し、出力層をタスクに適合させることをお勧めします（しきい値、ロジスティック、または競合出力を使用したブール/二分クラスの決定（たとえば、softmax、ロジスティックの自己正規化マルチクラス一般化））;回帰タスクは線形にすることもできます）。出力層は、連続的に微分可能である必要はありません。入力層は、何らかの方法で[0,1]に正規化する必要があります。さらに、標準化または[-1、+1]に意味のある正規化を行う必要があります。1のダミー入力を含める場合は、|| x || p = 1になるように正規化し、合計または長さで除算します。この大きさの情報は、失われるのではなく、ダミーのバイアス入力に保持されます。例を正規化すると、それらを見ると、これは技術的にテストデータに干渉します。または、そうでない場合は範囲外になる可能性があります。しかし、|| 2正規化では、そのような変動またはエラーが自然分布またはエラーの影響である場合、それらは正規分布に近づくはずです。これは、それらが元の範囲（おそらく約2標準偏差）をわずかな係数以上超えない可能性が高いことを意味します（つまり、そのような超過値は外れ値と見なされ、重要ではありません）。

したがって、入力層でのバイアスのないインスタンスの正規化またはバイアスのあるパターンの標準化、あるいはその両方（おそらくSVDによるデータ削減を伴う）、隠れ層でのtanh、および分類のための出力でのしきい値関数、ロジスティック関数、または競合関数をお勧めしますが、正規化されていないターゲット、または回帰用に正規化されたターゲットを使用したlogsig。

score 2 · Accepted Answer

言葉は（そして私がテストした）それ以来、場合によってはロジスティックよりもタンを使用する方が良いかもしれないということです

重みY = 0のロジスティック倍にw近い値0を出力すると、影響を受ける上位層にあまり影響を与えない値が生成されます（ただし、存在しない場合も影響します）。数値効果。Y = -1w
tanh（）の導関数は、ロジスティック（）1 - y^2よりも大きい値を生成します。たとえば、の場合、ロジスティック関数はtanhに対してとを生成しますが（これは一般にグラフを見るだけでわかります）。勾配の大きさのために、タン層はロジスティック層よりも速く学習する可能性があることを意味します。y (1 -y) = y - y^2z = 0y = 0.5y' = 0.25 y = 0y' = 1

score 0 · Accepted Answer

バイポーラシグモイド=（1-e ^（-x））/（1 + e ^（-x））

詳細な説明はここにあります

function - 神経活性化関数-ロジスティック/タン/などの違い

4 に答える 4

Related

Reference