3

私は、250 種の行動特性を生活史戦略にまとめようとしています。特性データは、数値変数と名義変数の両方で構成されます。私はRとクラスター分析に比較的慣れていませんが、これらのポイントの距離を見つけるための最良のオプションは、デイジー関数内でガワー類似度法を使用することだと思います. 1) それは最善の方法ですか?

これらの距離を取得したら、重要なクラスターを見つけたいと思います。私は pvclust を調べましたが、クラスタの強度を与えるその機能が気に入っています。ただし、以前にデイジーを使用して行った距離測定を受け入れるようにコードを変更することはできませんでした。私はここで与えられたアドバイスに従おうとして失敗しました10349#10349およびここで取得したコードを使用http://www.is.titech.ac.jp/~shimo/prog/pvclust/pvclust_unofficial_090824/pvclust.R

2)私の距離測定値を受け入れるように既存のコードを変更するのを手伝ってくれる人はいますか?

3) または、重要なクラスターの数を決定するための別のより良い方法はありますか?

皆様のご協力に感謝いたします。

4

2 に答える 2

2

いくつかのコメント...

1)について

これは、さまざまなタイプのデータを処理するための優れた方法です。

また、データセットにできるだけ多くの新しい行を公称値として作成し、必要な場所に 1/0 を配置することもできます。たとえば、「爬虫類」、「哺乳類」、「鳥」などの 3 つの公称値がある場合、2 つの列 (数値、公称) を持つ最初のデータセットを、4 つの列 (数値、数値 (爬虫類を表す) を持つ新しいデータセットに変更できます。 )、数値 (哺乳類を表す)、数値 (鳥を表す)) インスタンス (23.4,"哺乳類") は (23.4,0,1,0) にマップされます。

このマッピングを使用すると、「通常の」距離で作業できます(値が大きい/小さいために列が他の列を支配しないように、データを標準化してください)。

2)について

daisy はタイプが異なる要素を返します。これを cluster パッケージの他のクラスタリング アルゴリズムで使用できます (これ以上実装する必要はないかもしれません)。たとえば、関数 pam は、daisy によって返されたオブジェクトを直接取得できます。

3)について

クラスターは本当に主観的なものであり、ほとんどのクラスター アルゴリズムは初期条件に依存するため、「重要なクラスター」という用語は、実際には一部の人が快適に使用できない用語ではありません。Pam は、クラスターが公称データに適した medoid を使用して中心に配置されるため (解釈可能であるため)、この場合に役立ちます。たとえば、K-means には、重心が解釈できないという欠点があります (1/2 爬虫類 1/2 哺乳類とはどういう意味ですか?) pam は、インスタンスを中心としたクラスターを構築します。これは、解釈目的に適しています。

パムについて:

http://en.wikipedia.org/wiki/K-medoids

http://stat.ethz.ch/R-manual/R-devel/library/cluster/html/pam.html

于 2013-10-15T14:52:22.010 に答える
0

Zahn アルゴリズムを使用してクラスターを見つけることができます。基本的には最小全域木であり、最長辺を削除する機能です。

于 2013-08-01T20:40:40.920 に答える