numpy(theta、X は numpy 配列) でコードを書きました。
def CostRegFunction(X, y, theta, lambda_):
m = len(X)
# add bias unit
X = np.concatenate((np.ones((m,1)),X),1)
H = np.dot(X,theta)
J = (1 / (2 * m)) * (np.sum([(H[i] - y[i][0])**2 for i in range(len(H))])) + (lambda_ / (2 * m)) * np.sum(theta[1:]**2)
grad_ = list()
grad_.append((1 / m) * np.sum([(H[j] - y[j][0]) for j in range(len(H))]))
for i in range(len(theta)-1):
grad_.append((1 / m) * np.sum([(H[j] - y[j]) * X[j][i+1] for j in range(len(H))]) + (lambda_ / m) * theta[i+1])
return J, grad_
def TrainLinearReg(X, y, theta, lambda_, alpha, iter):
JHistory = list()
for i in range(iter):
J, grad = CostRegFunction(X, y, theta, Lambda_)
JHistory.append(J)
for j in range(len(theta)):
theta[j] = theta[j] - alpha * grad[j]
return theta, JHistory
Theta, JH = TrainLinearReg(X, y, th, Lambda_, 0.01, 50)
しかし、シータを学習しようとすると、このコードにより、シータと J の値が非常に大きくなります。たとえば、最初の反復 grad = [-15.12452, 598.435436] - これは正しいです。J は 303.3255 です 2 回目の反復 - grad = [10.23566,-3646.2345] J = 7924 など J はますます速く成長しますが、LR の考え方では低くなければなりません。
しかし、通常の線形方程式を使用すると、良いシータが得られます。
そのコードで何が間違っていますか?