4

問題が発生している最急降下逆伝播を実装するコードを作成しました。Machine CPUデータセットを使用しており、入力と出力を範囲[01]にスケーリングしました。

matlab/octaveのコードは次のとおりです。

最急降下法の逆伝播

%SGD = Steepest Gradient Decent

function weights = nnSGDTrain (X, y, nhid_units, gamma, max_epoch, X_test, y_test)

  iput_units = columns (X);
  oput_units = columns (y);
  n = rows (X);

  W2 = rand (nhid_units + 1, oput_units);
  W1 = rand (iput_units + 1, nhid_units);

  train_rmse = zeros (1, max_epoch);
  test_rmse  = zeros (1, max_epoch);

  for (epoch = 1:max_epoch)

    delW2 = zeros (nhid_units + 1, oput_units)'; 
    delW1 = zeros (iput_units + 1, nhid_units)';

    for (i = 1:rows(X))

      o1 = sigmoid ([X(i,:), 1] * W1); %1xn+1 * n+1xk = 1xk
      o2 = sigmoid ([o1, 1] * W2); %1xk+1 * k+1xm = 1xm

      D2 = o2 .* (1 - o2);
      D1 = o1 .* (1 - o1);
      e = (y_test(i,:) - o2)';

      delta2 = diag (D2) * e; %mxm * mx1 = mx1
      delta1 = diag (D1) * W2(1:(end-1),:) * delta2;  %kxm * mx1 = kx1

      delW2 = delW2 + (delta2 * [o1 1]); %mx1 * 1xk+1 = mxk+1  %already transposed
      delW1 = delW1 + (delta1 * [X(i, :) 1]); %kx1 * 1xn+1 = k*n+1  %already transposed

    end

    delW2 = gamma .* delW2 ./ n;
    delW1 = gamma .* delW1 ./ n;

    W2 = W2 + delW2';
    W1 = W1 + delW1';

    [dummy train_rmse(epoch)] = nnPredict (X, y, nhid_units, [W1(:);W2(:)]);
    [dummy test_rmse(epoch)] = nnPredict (X_test, y_test, nhid_units, [W1(:);W2(:)]);
    printf ('Epoch: %d\tTrain Error: %f\tTest Error: %f\n', epoch, train_rmse(epoch), test_rmse(epoch));
    fflush (stdout);

  end

  weights = [W1(:);W2(:)];
%    plot (1:max_epoch, test_rmse, 1);
%    hold on;
  plot (1:max_epoch, train_rmse(1:end), 2);
%    hold off;
end

予測する

%Now SFNN Only

function [o1 rmse] = nnPredict (X, y, nhid_units, weights)

  iput_units = columns (X);
  oput_units = columns (y);
  n = rows (X);

  W1 = reshape (weights(1:((iput_units + 1) * nhid_units),1), iput_units + 1, nhid_units);
  W2 = reshape (weights((((iput_units + 1) * nhid_units) + 1):end,1), nhid_units + 1, oput_units);

  o1 = sigmoid ([X ones(n,1)] * W1); %nxiput_units+1 * iput_units+1xnhid_units = nxnhid_units
  o2 = sigmoid ([o1 ones(n,1)] * W2); %nxnhid_units+1 * nhid_units+1xoput_units = nxoput_units

  rmse = RMSE (y, o2);
end

RMSE関数

function rmse = RMSE (a1, a2)
  rmse = sqrt (sum (sum ((a1 - a2).^2))/rows(a1));
end

また、R RSNNSパッケージを使用して同じデータセットをトレーニングしmlpました。トレインセットのRMSE(最初の100例)は約0.03です。しかし、私の実装では、0.14より低いRMSEを達成することはできません。また、学習率が高くなるとエラーが大きくなることがあり、学習率が高くないとRMSEが0.14より低くなることがあります。また、私が参照した論文では、列車セットのRMSEは約0.03であると報告されています

コードのどこに問題があるのか​​知りたかったのです。Raul Rojasの本を読み、問題がないことを確認しました。

4

1 に答える 1

3

backprobagationコードの行

  e = (y_test(i,:) - o2)';

o2はトレインセットからの出力であり、テストセットの1つの例との違いを見つけているため、正しくありませんy_test。行は次のようになっているはずです。

  e = (y(i,:) - o2)';

これは、現在のモデルによる予測出力と対応する例のターゲット出力の差を正しく検出します。

これは私がこれを見つけるのに3日かかりました、私は私がそれ以上の修正に入るのを妨げたこのおかしなバグを見つけるのに十分幸運です。

于 2013-03-14T12:44:09.323 に答える