kmeans を使用してビッグ データ マトリックス (500 万 X 512) を 5000 のセンターにクラスター化したいと考えています。このマトリックスで記憶を吹き飛ばさないように、R を使用しています。
txt マトリックスを xdf に変換してからクラスター化するために、次のコードを作成しました。
rxTextToXdf(inFile = inFile, outFile = outFile)
vars <- rxGetInfo(outFile,getVarInfo=TRUE)
myformula <- as.formula(paste("~", paste(names(vars$varInfo), collapse = "+"), sep=""))
clust <- rxKmeans(formula = myformula, data = outFile,numClusters = 5000, algorithm = "lloyd", overwrite = TRUE)
write.table(clust$centers, file = centersFiletxt, sep=",", row.names=FALSE, col.names=FALSE)
しかし、それは現在1週間実行されています。それをより速くする方法はありますか?