名前の選択がどれだけ似ているかに基づいて、グループ変数を作成したいと思います。stringdist パッケージを使用して距離の尺度を生成することから始めました。しかし、その出力情報を使用して変数によるグループを生成する方法がわかりません。hclust を見てきましたが、最終的にいくつのグループが必要かを知るために必要なクラスタリング関数を使用しているようですが、それはわかりません。私が始めるコードは以下の通りです:
name_list <- c("Mary", "Mery", "Mary", "Joe", "Jo", "Joey", "Bob", "Beb", "Paul")
name_dist <- stringdistmatrix(name_list)
name_dist
name_dist2 <- stringdistmatrix(name_list, method="soundex")
name_dist2
次のような2つの列を持つデータフレームを見たい
name = c("Mary", "Mery", "Mary", "Joe", "Jo", "Joey", "Bob", "Beb", "Paul")
name_group = c(1, 1, 1, 2, 2, 2, 3, 3, 4)
グループは、使用する距離測定値によって明らかに若干異なる場合がありますが (上記の 2 つを提案しました)、おそらくどちらかを選択して実行します。
基本的に、必要なクラスターの数を知らなくても、距離行列からグループ変数を取得するにはどうすればよいですか?