私は R の初心者で、いくつかのデータ サンプルでクラスタリングを実行しようとしています。PCAを試してみた
res.pca <- PCA(df,
ncp = 5, # nb composantes principales.
graph = TRUE,
)
を使用して、新しい座標で完全な要素リストを取得できます
res.pca$ind
これは素晴らしいことで、PCA で 2 つの最初の軸を使用する情報に完全に対応しています。変数が 30 個あることを考えると、この結果を非常に誇りに思っています...そして最後に、PCA は暗黙のうちに 2 次元で十分だと言っています。
DBSCAN クラスタリング メソッドを試したこれらのデータに引き続き取り組んでいますfpc::dbscan
。
library (factoextra)
db <- fpc::dbscan(df, eps = 22, MinPts = 3)
dbscan を実行し、fviz_cluster を使用してクラスターをグラフ化した後、2 次元表示は次のように表示されます: 軸 1 で 92.8%、軸 2 で 6.7%!!!! (合計分散の 99% 以上が 2 つの軸で説明されています!
要するに、DBSCAN は私の 30 個の変数データを、PCA よりも優れているように見える方法で変換しました。DBSCAN の全体的なクラスタリングは私のデータにとってゴミですが、使用された変換は非常に優れています。
私の問題は、これらの新しい座標にアクセスしたいということです...しかし、現時点では方法がありません...私が見ることができる唯一のアクセス可能な変数は次のとおりです。
db$cluster, db$eps, db$Minpts, db$isseed
しかし、そうでなければ、fviz_cluster がデータをどのように表示できるかによって、一部のデータにアクセスできるのではないかと思います。
何か案が ?