0

132 個の観測値と 10 個の変数で構成されるデータセットがあります。これらの変数はすべてカテゴリ変数です。観測がどのようにクラスター化され、分散のパーセンテージに基づいてどのように異なるかを確認しようとしています。つまり、a) 特定の観測点を互いに引き離すのに役立つ変数があるかどうか、b) ある場合、それによって説明される分散のパーセンテージは何かを調べたいと考えています。

データに対して PCoA (基本座標分析) を実行するように勧められました。ビーガンとサルのパッケージを使用して実行しました。これは、csv ファイルを r にロードした後のコードです。データと呼びます

#data.dis<-vegdist(data,method="gower",na.rm=TRUE)
#data.pcoa<-pcoa(data.dis)

次に、pcoa データからベクトルを抽出するように言われました。

#data.pcoa$vectors

その後、132行が返されましたが、20列の値が返されました(たとえば、軸1から軸20まで)

変数が 10 個しかないのに、値の列が 20 列ある理由に当惑しました。10列しか得られないという印象を受けました。a) ベクトルが実際に何を表しているのか、b) 軸 1 と 2 によって説明される分散のパーセンテージをどのように取得するのですか?

data.pcoa私が持っていた別の質問は、距離行列で pcoa を実行した後に固有値を抽出する目的をよく理解していないということでしたが、それ以上の説明はありませんでした。

4

1 に答える 1

3

ガワー インデックスは非ユークリッドであり、ユークリッド順序 (PCoA) の変数の数よりも多くの実軸を期待できます。ただし、変数はカテゴリカルであると言いました。R用語では、それらは要因であると思います。その場合は、数値データのみを受け入れる which を使用しないでください。vegan::vegdist()さらに、変数が因子として定義されている場合vegan::vegdist()、非類似度の計算が拒否され、エラーが発生します。を使用できvegdist()た場合は、変数を因子として適切に定義していません。因子変数が本当にある場合は、Gower の非類似性のためにビーガン以外のパッケージを使用する必要があります (多くの代替手段があります)。

「分散」のパーセンテージは、虚数次元に対応するいくつかの負の固有値も与える非ユークリッドの非類似性には少し注意が必要です。その場合、すべての正の固有値 (実軸) の合計は、データの合計「分散」よりも高くなります。ape::pcoa()要素で尋ねた情報を返しますvalues。説明された分散の割合は、その要素にありvalues$Relative_eigます。総「分散」は element に返されますtrace?pcoaこれはすべて、私が読んだ場所に文書化されていました。

于 2019-02-26T07:35:36.580 に答える