私は機械学習の問題に取り組んでおり、学習アルゴリズムとして線形回帰を使用したいと考えています。線形回帰モデルのパラメーターを見つけるためにtheta
、最急降下法と法線方程式の2つの異なる方法を実装しました。同じデータで、両方ともほぼ等しいtheta
ベクトルを与える必要があります。しかし、そうではありません。
両方のtheta
ベクトルは、最初の要素を除いてすべての要素で非常に似ています。これは、データに追加された1つすべてのベクトルを乗算するために使用されるものです。
sは次のようになります(最初の列は最theta
急降下法の出力、2番目の列は正規方程式の出力です):
Grad desc Norm eq
-237.7752 -4.6736
-5.8471 -5.8467
9.9174 9.9178
2.1135 2.1134
-1.5001 -1.5003
-37.8558 -37.8505
-1.1024 -1.1116
-19.2969 -19.2956
66.6423 66.6447
297.3666 296.7604
-741.9281 -744.1541
296.4649 296.3494
146.0304 144.4158
-2.9978 -2.9976
-0.8190 -0.8189
通常の方程式によって返されるtheta(1, 1)
ものと比較して、勾配降下によって返されるものに違いが生じる原因は何ですか?theta(1, 1)
コードにバグがありますか?
Matlabでの正規方程式の実装は次のとおりです。
function theta = normalEque(X, y)
[m, n] = size(X);
X = [ones(m, 1), X];
theta = pinv(X'*X)*X'*y;
end
最急降下法のコードは次のとおりです。
function theta = gradientDesc(X, y)
options = optimset('GradObj', 'on', 'MaxIter', 9999);
[theta, ~, ~] = fminunc(@(t)(cost(t, X, y)),...
zeros(size(X, 2), 1), options);
end
function [J, grad] = cost(theta, X, y)
m = size(X, 1);
X = [ones(m, 1), X];
J = sum((X * theta - y) .^ 2) ./ (2*m);
for i = 1:size(theta, 1)
grad(i, 1) = sum((X * theta - y) .* X(:, i)) ./ m;
end
end
まったく同じデータを両方の関数に渡しX
ますy
(正規化しませんX
)。
編集1:
回答とコメントに基づいて、コードをいくつかチェックし、いくつかのテストを実行しました。
まず、 @ user1489497の回答で示唆されているように、Xビーイングが特異点に近いことが問題の原因であるかどうかを確認したいと思います。だから私はpinvをinvに置き換えました-そしてそれを実行すると本当に警告が出Matrix is close to singular or badly scaled.
ました。それが問題ではないことを確認するために、私ははるかに大きなデータセットを取得し、この新しいデータセットでテストを実行しました。今回は警告と使用をinv(X)
表示せず、同じ結果になりました。だから私はそれがもう特異に近くないことを願っています。pinv
inv
X
次に、 woodchipsが提案するようにコードを変更normalEque
したので、次のようになります。
function theta = normalEque(X, y)
X = [ones(size(X, 1), 1), X];
theta = pinv(X)*y;
end
しかし、問題はまだあります。normalEque
特異に近くない新しいデータの新しい関数は、theta
として異なるものを与えますgradientDesc
。
どのアルゴリズムにバグがあるかを調べるために、同じデータに対してデータマイニングソフトウェアWekaの線形回帰アルゴリズムを実行しました。Wekaは、の出力と非常によく似ていますnormalEque
が、の出力とは異なるシータを計算しましたgradientDesc
。normalEque
ですから、それは正しく、にバグがあるgradientDesc
と思います。
theta
これがWekaによって計算されたsのnormalEque
比較ですGradientDesc
。
Weka(correct) normalEque gradientDesc
779.8229 779.8163 302.7994
1.6571 1.6571 1.7064
1.8430 1.8431 2.3809
-1.5945 -1.5945 -1.5964
3.8190 3.8195 5.7486
-4.8265 -4.8284 -11.1071
-6.9000 -6.9006 -11.8924
-15.6956 -15.6958 -13.5411
43.5561 43.5571 31.5036
-44.5380 -44.5386 -26.5137
0.9935 0.9926 1.2153
-3.1556 -3.1576 -1.8517
-0.1927 -0.1919 -0.6583
2.9207 2.9227 1.5632
1.1713 1.1710 1.1622
0.1091 0.1093 0.0084
1.5768 1.5762 1.6318
-1.3968 -1.3958 -2.1131
0.6966 0.6963 0.5630
0.1990 0.1990 -0.2521
0.4624 0.4624 0.2921
-12.6013 -12.6014 -12.2014
-0.1328 -0.1328 -0.1359
Justin Peelの回答で示唆されているように、エラーも計算しました。の出力でnormalEque
は、二乗誤差はわずかに少なくなりますが、差はわずかです。さらに、関数を使用するコストの勾配(で使用されるものと同じ)を計算すると、ゼロに近い勾配が得theta
cost
gradientDesc
られました。の出力で同じことを行うと、gradientDesc
ゼロに近い勾配は得られません。これが私が意味することです:
>> [J_gd, grad_gd] = cost(theta_gd, X, y, size(X, 1));
>> [J_ne, grad_ne] = cost(theta_ne, X, y, size(X, 1));
>> disp([J_gd, J_ne])
120.9932 119.1469
>> disp([grad_gd, grad_ne])
-0.005172856743846 -0.000000000908598
-0.026126463200876 -0.000000135414602
-0.008365136595272 -0.000000140327001
-0.094516503056041 -0.000000169627717
-0.028805977931093 -0.000000045136985
-0.004761477661464 -0.000000005065103
-0.007389474786628 -0.000000005010731
0.065544198835505 -0.000000046847073
0.044205371015018 -0.000000046169012
0.089237705611538 -0.000000046081288
-0.042549228192766 -0.000000051458654
0.016339232547159 -0.000000037654965
-0.043200042729041 -0.000000051748545
0.013669010209370 -0.000000037399261
-0.036586854750176 -0.000000027931617
-0.004761447097231 -0.000000027168798
0.017311225027280 -0.000000039099380
0.005650124339593 -0.000000037005759
0.016225097484138 -0.000000039060168
-0.009176443862037 -0.000000012831350
0.055653840638386 -0.000000020855391
-0.002834810081935 -0.000000006540702
0.002794661393905 -0.000000032878097
これは、最急降下法が単に大域的最小値に収束しなかったことを示唆します...しかし、私が何千回も繰り返し実行しているので、それはほとんど当てはまりません。では、バグはどこにありますか?