2

深層ニューラル ネットワークでテンソルフロー バッチ正規化を正常に使用しています。私は次の方法でそれをやっています:

if apply_bn:
    with tf.variable_scope('bn'):
        beta = tf.Variable(tf.constant(0.0, shape=[out_size]), name='beta', trainable=True)
        gamma = tf.Variable(tf.constant(1.0, shape=[out_size]), name='gamma', trainable=True)
        batch_mean, batch_var = tf.nn.moments(z, [0], name='moments')
        ema = tf.train.ExponentialMovingAverage(decay=0.5)

        def mean_var_with_update():
            ema_apply_op = ema.apply([batch_mean, batch_var])
            with tf.control_dependencies([ema_apply_op]):
                return tf.identity(batch_mean), tf.identity(batch_var)

        mean, var = tf.cond(self.phase_train,
                            mean_var_with_update,
                            lambda: (ema.average(batch_mean), ema.average(batch_var)))

        self.z_prebn.append(z)
        z = tf.nn.batch_normalization(z, mean, var, beta, gamma, 1e-3)
        self.z.append(z)

        self.bn.append((mean, var, beta, gamma))

また、トレーニング フェーズとテスト フェーズの両方で問題なく動作します。ただし、別のプロジェクトで計算されたニューラル ネットワーク パラメーターを使用しようとすると、問題が発生します。ここでは、すべての行列の乗算などを自分で計算する必要があります。問題は、tf.nn.batch_normalization関数の動作を再現できないことです。

feed_dict = {
    self.tf_x: np.array([range(self.x_cnt)]) / 100, 
    self.keep_prob: 1,
    self.phase_train: False
}

for i in range(len(self.z)):
    # print 0 layer's 1 value of arrays
    print(self.sess.run([
        self.z_prebn[i][0][1], # before bn
        self.bn[i][0][1],      # mean
        self.bn[i][1][1],      # var
        self.bn[i][2][1],      # offset
        self.bn[i][3][1],      # scale
        self.z[i][0][1],       # after bn
    ], feed_dict=feed_dict))
    # prints
    # [-0.077417567, -0.089603029, 0.000436493, -0.016652612, 1.0055743, 0.30664611]

ページhttps://www.tensorflow.org/versions/r1.2/api_docs/python/tf/nn/batch_normalizationの式によると:

bn = scale * (x - mean) / (sqrt(var) + 1e-3) + offset

しかし、ご覧のとおり、

1.0055743 * (-0.077417567 - -0.089603029)/(0.000436493^0.5 + 1e-3) + -0.016652612
= 0.543057

0.30664611これは、Tensorflow 自体によって計算された値とは異なります。では、ここで何が間違っているのでしょうか。また、バッチの正規化された値を自分で計算できないのはなぜですか?

前もって感謝します!

4

1 に答える 1