tensorflow - このカスタム推定器で tf.nn.relu と tf.nn.sigmoid の両方が同じように機能するのはなぜですか?

Question

これは、TensorFlow でカスタム推定器を作成するためのガイドです: https://www.tensorflow.org/guide/custom_estimators

非表示のレイヤーは次を使用して作成されtf.nn.reluます。

# Build the hidden layers, sized according to the 'hidden_units' param.
for units in params['hidden_units']:
    net = tf.layers.dense(net, units=units, activation=tf.nn.relu)

とを使用してXORを学習するために、例を少し変更しました。アクティベーション関数をに変更すると、例は通常どおりに機能します。なぜそうなのですか？XOR 入力は 0 と 1 だけなので、正しい結果が得られますか?hidden_units=[4]n_classes=2tf.nn.sigmoid

どちらの関数も、ゼロラインに収束する滑らかな損失曲線を提供します。

score 1 · Accepted Answer

XOR問題について、relu隠れ層が深いと逆伝播による誤差値が消失する勾配消失を解決しました。

したがって、Sigmoid非表示レイヤーを 1 つだけ作成すると機能します。

Sigmoid は 0~1 に vlue があります。出力層からの逆伝搬によるエラー値は、偏微分方程式により出力層から遠いところでは非常に小さな値になります。

青線はRelu、黄線はSigmoidです。

Relu は x の値が 0 より大きい場合、エラー値が 1 層目に到達する可能性があります。

tensorflow - このカスタム推定器で tf.nn.relu と tf.nn.sigmoid の両方が同じように機能するのはなぜですか?

1 に答える 1

Related

Reference