R で Hadoop の分散線形回帰計算に取り組んでいますが、実装する前に、計算が関数の結果と一致することを確認したいと思いlm
ます。
Andrew Ngらによって議論された一般的な「合計」フレームワークを実装しようとする次の関数があります。論文Map-Reduce for Machine Learning on Multicore で。
線形回帰の場合、これには、次のように各行 y_i および x_i を P_i および Q_i にマッピングすることが含まれます。
P_i = x_i * transpose(x_i)
Q_i = x_i * y_i
次に、係数 theta を解くために還元します。
theta = (sum(P_i))^-1 * sum(Q_i)
これを行う R 関数は次のとおりです。
calculate_p <- function(dat_row) {
dat_row %*% t(dat_row)
}
calculate_q <- function(dat_row) {
dat_row[1,1] * dat_row[, -1]
}
calculate_pq <- function(dat_row) {
c(calculate_p(matrix(dat_row[-1], nrow=1)), calculate_q(matrix(dat_row, nrow=1)))
}
map_pq <- function(dat) {
t(apply(dat, 1, calculate_pq))
}
reduce_pq <- function(pq) {
(1 / sum(pq[, 1])) * apply(pq[, -1], 2, sum)
}
次を実行することで、一部の合成データに実装できます。
X <- matrix(rnorm(20*5), ncol = 5)
y <- as.matrix(rnorm(20))
reduce_pq(map_pq(cbind(y, X)))
[1] 0.010755882 -0.006339951 -0.034797768 0.067438662 -0.033557351
coef(lm.fit(X, y))
x1 x2 x3 x4 x5
-0.038556283 -0.002963991 -0.195897701 0.422552974 -0.029823962
残念ながら、出力が一致しないため、明らかに何か間違っています。どうすれば修正できますか?