1

私は Stamford のディープ ラーニング チュートリアルに取り組んでいますが、演習の 1 つであるソフトマックス出力層を使用したニューラル ネットワークに問題があります。Rでの私の実装は次のとおりです。

train <- function(training.set, labels, costFunc, activationFunc, outputActivationFunc, activationDerivative, hidden.unit.count = 7, learningRate = 0.3, decayRate=0.02, momentumRate=0.02, samples.count, batch.size, verbose=F, debug=F){

  #initialize weights and biases
  w1 <- matrix( rnorm(hidden.unit.count * input.unit.count, sd=0.5), nrow=hidden.unit.count, ncol=input.unit.count)
  b1 <- matrix(-1, nrow=hidden.unit.count, ncol=1)
  w2 <- matrix(rnorm(output.unit.count * hidden.unit.count, sd=0.5), nrow=output.unit.count, ncol=hidden.unit.count)
  b2 <- matrix(-1, nrow=output.unit.count, ncol=1)

  cost.list<- matrix(rep(seq(1:floor(samples.count / batch.size)), each=2), byrow=T, ncol=2)
  cost.list[, 2] <- 0

  i <- 1
  while(i < samples.count){
    z2 <- w1 %*% training.set[, i: (i + batch.size - 1)] + matrix(rep(b1, each=batch.size), ncol=batch.size,byrow=T)
    a2 <- activationFunc(z2)

    z3 <- w2 %*% a2 + matrix(rep(b2, each=batch.size), ncol=batch.size,byrow=T)
    h  <- outputActivationFunc(z3)

    #calculate error
    output.error <- (h - labels[, i: (i + batch.size - 1)]) 
    hidden.error <- (t(w2) %*% output.error) * sigmoidPrime(z2)

    # calculate gradients for both layers
    gradW2 <- hidden.error %*% t(training.set[ ,i: (i + batch.size - 1)]) - momentumRate * gradW2.prev - decayRate * w1
    gradw2 <- output.error %*% t(a2) - momentumRate * gradw2.prev - decayRate * w2

    gradW2.prev <- gradW2
    gradw2.prev <- gradw2

    #update weights and biases
    w1 <- w1 - learningRate * gradW2 / batch.size
    w2 <- w2 - learningRate * gradW3 / batch.size

    b1 <- b1 - learningRate * rowSums(gradW2) / batch.size
    b2 <- b2 - learningRate * rowSums(gradW3) / batch.size

    i <- i + batch.size
  }

  return (list(w1, w2, b1, b2, cost.list))
}

出力層で使用するソフトマックス関数と、ソフトマックスで使用するコスト関数を次に示します。

softmax <- function(a){
  a <- a - apply(a, 1, function(row){ 
      return (max(row))
  })

  a <- exp(a)

  return (sweep(a, 2, colSums(a), FUN='/'))
}

softmaxCost <- function(w, b, x, y, decayRate, batch.size){
  a <- w %*% x + matrix(rep(b, each=dim(x)[2]), byrow = T, ncol=dim(x)[2])

  h <- softmax(a)

  cost <- -1/batch.size * (sum(y * log(h))) + decayRate/2 * sum((w * w))

  return (cost)
}

プログラムによって計算された勾配を数値勾配と比較して確認しましたが、それらは異なります。ただし、勾配計算が正しくない原因がわかりません。

また、MNIST の出力層でシグモイド活性化を使用してこのネットワークを使用することに成功しましたが、softmax 層を使用しても機能しません (11% の精度)。これは、問題がソフトマックスの実装にあると私に信じさせます。

4

1 に答える 1

1

私が正しいと理解していれば、問題maxはあなたのコード (ReLu) の一部にあると思います。の DNNsoftmaxでは、 を選択しますmax(0, value)。具体的には、この場合、行列の各要素に対してこれを行いますa

したがって、コードは次のようになります。

# XW + b
hidden.layer <- sweep(X %*% W ,1, b, '+', check.margin = F)
# max for each element in maxtir
hidden.layer <- pmax(hidden.layer, 0)

ところで、多くのメモリを浪費する行の複製の代わりに、マトリックスにsweep追加するために使用できます。ここでは、3 つのアプローチを示しますbT

以下のコードについてはy注意が0/1必要です.10sum(y * log(h))

cost <- -1/batch.size * (sum(y * log(h))) + decayRate/2 * sum((w * w))

編集:ここで R を使用して DNN を構築する方法についてのブログを書きました。

于 2016-01-05T03:05:59.003 に答える