k-means を使用してクラスタリングする 62 列と 181408 行の行列があります。私が理想的に望むのは、最適なクラスター数を特定する方法です。clusGap
クラスター パッケージ (以下の再現可能なコード)を使用してギャップ統計手法を実装しようとしましたが、これにより、ベクトルのサイズ (122 GB) に関連するいくつかのエラー メッセージが生成さmemory.limit
れ、Windows およびError in dist(xs) : negative length vectors are not allowed
OS X では " "の問題が発生します。大規模なデータセットで最適なクラスター数を決定する際に機能する手法について何か提案はありますか? または、代わりに、コードを機能させる方法 (完了まで数日かからない方法) を教えてください。ありがとう。
library(cluster)
inputdata<-matrix(rexp(11247296, rate=.1), ncol=62)
clustergap <- clusGap(inputdata, FUN=kmeans, K.max=12, B=10)