r - 複数のグループを持つデータセットの各グループで PCA を実行する方法は?

Question

私は、4 つの集団、4 つの処理、および 3 つの複製からの個人のデータセットを持っています。各個人は、1 つの集団、治療、複製の組み合わせのみに属します。私は各個人から 4 つの測定値を取得しました。各母集団、基質、複製の組み合わせについて、これらの測定値について PCA を実行したいと思います。

すべての個人に対して PCA を実行する方法を認識しており、集団、基質、および複製の組み合わせごとにデータセットを複数のデータセットに分割し、新しいデータセットごとに PCA を実行できます。

完全なデータセットに対して PCA を実行し、集団、基質、複製の組み合わせごとに個別の PC1、PC2... の結果を最も効率的に取得するにはどうすればよいですか? データセットをリストに変換することを考えていますが、princomp 関数をリストに適用する方法がわかりません。私は正しい軌道に乗っていますか？

サンプルデータ：

TestData<- structure(list(Location = c("A", "A", "A", "A", "A", "A", "A", "A", "A", "A", "A", "A",
                                   "B", "B", "B", "B", "B", "B", "B", "B", "B", "B", "B", "B",
                                   "C", "C", "C", "C", "C", "C", "C", "C", "C", "C", "C", "C",
                                   "D", "D", "D", "D", "D", "D", "D", "D", "D", "D", "D", "D"),
              Substrate = c("A", "B", "C", "D", "A", "B", "C", "D", "A", "B", "C", "D",
                            "A", "B", "C", "D", "A", "B", "C", "D", "A", "B", "C", "D",
                            "A", "B", "C", "D", "A", "B", "C", "D", "A", "B", "C", "D",
                            "A", "B", "C", "D", "A", "B", "C", "D", "A", "B", "C", "D"),
              Replicate = c(1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L, 3L, 3L, 3L, 3L, 
                            1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L, 3L, 3L, 3L, 3L, 
                            1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L, 3L, 3L, 3L, 3L, 
                            1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L, 3L, 3L, 3L, 3L), 
              Adult_Weight = c(0.0092, 0.0083, 0.0088, 0.0077, 0.0088, 0.01, 
                               0.0099, 0.011, 0.0078, 0.0086, 0.0071, 0.0093, 
                               0.0111, 0.01, 0.0097, 0.0091, 0.0083, 0.0098,
                               0.0093, 0.009, 0.0114, 0.0087, 0.0094, 0.0096, 
                               0.0099, 0.0105, 0.0091, 0.0115, 0.0106, 0.0104, 
                               0.0113, 0.0115, 0.0107, 0.0126, 0.0106, 0.0101,
                               0.0095, 0.0113, 0.0111, 0.0118, 0.0114, 0.0123, 
                               0.0119, 0.0103, 0.0119, 0.0116, 0.0112, 0.0114), 
              Adult_Thorax_Width = c(1.31, 1.31, 1.43, 1.45, 1.52, 1.43, 1.57, 1.45, 1.43, 1.54, 1.32, 1.49, 
                                     1.58, 1.36, 1.42, 1.45, 1.48, 1.38, 1.55, 1.46, 1.52, 1.42, 1.6, 1.49, 
                                     1.48, 1.58, 1.51, 1.53, 1.54, 1.76, 1.63, 1.62, 1.44, 1.51, 1.53, 1.58, 
                                     1.46, 1.94, 1.54, 2.09, 1.5, 1.65, 1.86, 1.54, 1.8, 1.98, 1.82, 1.63), 
              Adult_Wing_Length = c(1359L, 1377L, 1555L, 1559L, 1562L, 1578L, 1580L, 1588L, 1597L, 1598L, 1603L, 1605L, 
                                    1612L, 1614L, 1616L, 1617L, 1623L, 1628L, 1639L, 1642L, 1643L, 1649L, 1651L, 1652L, 
                                    1653L, 1653L, 1654L, 1656L, 1656L, 1656L, 1662L, 1664L, 1665L, 1668L, 1670L, 1670L, 
                                    1671L, 1672L, 1674L, 1682L, 1685L, 1687L, 1688L, 1694L, 1698L, 1698L, 1707L, 1708L), 
              Adult_Leg_Length = c(414L, 390L, 627L, 541L, 430L, 450L, 451L, 462L, 443L, 582L, 435L, 579L, 
                                   499L, 418L, 444L, 646L, 589L, 466L, 435L, 477L, 450L, 606L, 660L, 450L, 
                                   446L, 480L, 462L, 438L, 483L, 454L, 492L, 457L, 463L, 499L, 470L, 474L, 
                                   627L, 478L, 473L, 496L, 666L, 499L, 480L, 461L, 450L, 483L, 460L, 584L)),
              .Names = c("Location", "Substrate", "Replicate", "Weight", "Thorax_Width", "Wing_Length", "Leg_Length"),
              row.names = c(NA, 48L), 
              class = "data.frame")

score 9 · Accepted Answer

あなたのデータ構成を正しく理解していれば、母集団と処理を階乗変数として入力し、3 つの複製を別々の行として持つ必要があります。列の種類は次のようになります。

1 列目の母集団: 因子
2 列目の処理: 係数
3 ～ 6 列目: 数値 (合計 4 列)

また、全体的なデータクラスは、好ましくは ' data.frame ' である必要があります。これは、' data.frame ' では、列が異なるクラスタイプを持つ可能性があるためです (たとえば、' matrix ' とは異なります)。

これは、要因変数 (ここでは ' iris$Species ') に従って、例のアイリスデータセットを階層化する例です。階層化したい因子が複数ある場合は、INDICES引数の入力として 2 つ (またはそれ以上) 列の行列を使用できます。ただし、注釈付きの単一の PCA を本当に意味しているのではありませんか? これは、因子タイプの変数を数値に変更し、散布図で「 col」(=color) および「pch」(=symbol) パラメータなどを使用して注釈を付けることで簡単に実行できます。

data(iris) # Load the example Iris-dataset
class(iris)
lapply(iris, FUN=class)
#> class(iris)
#[1] "data.frame"
#> 
#> lapply(iris, FUN=class)
#$Sepal.Length
#[1] "numeric"
#
#$Sepal.Width
#[1] "numeric"
#
#$Petal.Length
#[1] "numeric"
#
#$Petal.Width
#[1] "numeric"
#
#$Species
#[1] "factor"

par(mfrow=c(2,2), mar=c(4,4,2,1))
# Separate PCA plot for each Species
# Apply our defined PCA-function where each unique INDICES are handled as a separate function call
by(iris, INDICES=iris$Species, FUN=function(z){
    # Use numeric fields for the PCA
    pca <- prcomp(z[,unlist(lapply(z, FUN=class))=="numeric"])
    plot(pca$x[,1:2], pch=16, main=z[1,"Species"]) # 2 first principal components
    z
})

# Color annotation
# Use numeric fields for the PCA
pca <- prcomp(iris[,unlist(lapply(iris, FUN=class))=="numeric"])
plot(pca$x[,1:2], pch=16, col=as.numeric(iris[,"Species"]), main="Color annotation") # 2 first principal components
legend("bottom", pch=16, col=unique(as.numeric(iris[,"Species"])), legend=unique(iris[,"Species"]))

PCA の例

左上から数えて最初の 3 つのパネルでは、PCA 軸が同じではないことに注意してください。これは、グループ単位の PCA のみを計算する場合、PCA 計算の共分散行列が同じではないという事実によるものです。

あるいは、単一の PCA が必要で、異なるカテゴリに属する観測をそれぞれのウィンドウにプロットするだけの場合は、次の行で何かを試すことができます。

par(mfrow=c(1,3))
# Compute the PCA
pca <- prcomp(iris[,unlist(lapply(iris, FUN=class))=="numeric"])
# Apply a plotting function over unique values of iris$Species, notice we always plot the same 'pca' object in all categories
lapply(unique(iris$Species), FUN=function(z) { 
    plot(pca$x[which(z==iris$Species),1:2], xlim=extendrange(pca$x[,1]), ylim=extendrange(pca$x[,2]),pch=16, main=z)
})

pca2

編集：

' by ' 関数のヘルプファイルから: "INDICES: a factor or a list of factor, each of length nrow(data)."

したがって、リスト内のインデックスをby関数に提供すると、複数の階乗変数に関してデータを階層化できます。これは人為的な例です。ここで、'first' と 'second' は、データを階層化する 2 つの同時要因です。これを 3 つ (またはそれ以上) の変数に拡張するのは簡単です。

ex <- cbind(matrix(rnorm(400), ncol=4), first = c("A", "B"), second = c("foo", "bar", "asd", "fgh", "jkl"))
by(ex, INDICES=list(ex[,"first"], ex[,"second"]), FUN=function(z) z)
# Modify the above function provided in FUN to suit your needs

r - 複数のグループを持つデータセットの各グループで PCA を実行する方法は?

1 に答える 1

Related

Reference