r - データフレームよりも多くのポイントをプロットするggplot2、geom_point + facet_grid

Question

私はいくつかのデータを持っており、ジッター点のオーバーレイで箱ひげ図を作成しようとしています。私の問題はポイントにあるので、それに固執します。

データは次のとおりです。

> dput(test)
structure(list(var1 = structure(c(1L, 1L, 1L, 1L, 1L, 1L, 1L, 
2L, 2L, 2L, 2L, 2L, 2L, 2L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 4L, 4L, 
4L, 4L, 4L, 4L, 4L, 5L, 5L, 5L, 5L, 5L, 5L, 5L, 6L, 6L, 6L, 6L, 
6L, 6L, 6L, 7L, 7L, 7L, 7L, 7L, 7L, 7L, 8L, 8L, 8L, 8L, 8L, 8L, 
8L, 9L, 9L, 9L, 9L, 9L, 9L, 9L), .Label = c("A", "B", "C", "D", 
"E", "F", "G", "H", "I"), class = "factor"), var2 = structure(c(1L, 
2L, 3L, 4L, 5L, 6L, 7L, 1L, 2L, 3L, 4L, 5L, 6L, 7L, 1L, 2L, 3L, 
4L, 5L, 6L, 7L, 1L, 2L, 3L, 4L, 5L, 6L, 7L, 1L, 2L, 3L, 4L, 5L, 
6L, 7L, 1L, 2L, 3L, 4L, 5L, 6L, 7L, 1L, 2L, 3L, 4L, 5L, 6L, 7L, 
1L, 2L, 3L, 4L, 5L, 6L, 7L, 1L, 2L, 3L, 4L, 5L, 6L, 7L), .Label = c("V1", 
"V2", "V3", "V4", "V5", "V6", "V7"), class = "factor"), response1 = c(5L, 
6L, 5L, 5L, 5L, 5L, 4L, 6L, 6L, 5L, 5L, 6L, 6L, 4L, 1L, 1L, NA, 
1L, NA, NA, 1L, 1L, 1L, NA, 1L, NA, NA, 1L, 5L, 5L, 4L, 5L, 3L, 
2L, 3L, 1L, 1L, NA, 1L, NA, NA, 1L, NA, NA, 2L, NA, 3L, 1L, NA, 
NA, NA, 4L, NA, 4L, 5L, NA, NA, NA, 1L, NA, 1L, 1L, NA), response2 = c(2L, 
2L, 2L, 2L, 2L, 2L, 4L, 1L, 1L, 1L, 1L, 1L, 1L, 2L, 5L, 5L, NA, 
5L, NA, NA, 5L, 5L, 5L, NA, 5L, NA, NA, 5L, 5L, 5L, 5L, 5L, 5L, 
5L, 5L, 5L, 5L, NA, 5L, NA, NA, 5L, NA, NA, 5L, NA, 5L, 5L, NA, 
NA, NA, 5L, NA, 5L, 5L, NA, NA, NA, 5L, NA, 5L, 5L, NA), response3 = c(4L, 
5L, 1L, 1L, 4L, 1L, 1L, 4L, 5L, 1L, 1L, 5L, NA, 1L, 4L, NA, NA, 
NA, 3L, 2L, NA, 4L, NA, NA, NA, 3L, NA, NA, 4L, NA, 1L, NA, 3L, 
NA, 2L, 4L, NA, NA, NA, NA, NA, NA, NA, 2L, 1L, 1L, NA, NA, 1L, 
NA, 3L, 1L, NA, NA, NA, 1L, NA, 3L, 1L, NA, NA, NA, 1L)), .Names = c("var1", 
"var2", "response1", "response2", "response3"), class = "data.frame", row.names = c(NA, 
-63L))

以前reshape2は、プロットコマンドのファセット化/簡略化のためにデータを溶かしていました。

library(reshape2)
test_melted <- melt(test, id.var = c("var1", "var2"), na.rm = T)

そして、ここに私が作成したプロットがあります：

library(ggplot2)
p <- ggplot(test_melted, aes(x = var1, y = value)) + geom_point()
p <- p + facet_grid(~variable) + coord_flip()
p <- p + geom_jitter(position = position_jitter(width=0.2, height = 0.2))
p

それはこれをもたらします：

ここに画像の説明を入力

十分に正常に見えましたが、ファセット/因子レベルごとに本来あるべきよりも多くのポイントがあるように見えることに気付きました. 1つのレベルに絞り込みましたvar1

test_subset <- test_melted[test_melted$var1 == "E", ]

nrow(test_subset)
[1] 18

summary(test_subset)
      var1    var2        variable     value  
 E      :18   V1:3   response1:7   Min.   :1  
 A      : 0   V2:2   response2:7   1st Qu.:3  
 B      : 0   V3:3   response3:4   Median :5  
 C      : 0   V4:2                 Mean   :4  
 D      : 0   V5:3                 3rd Qu.:5  
 F      : 0   V6:2                 Max.   :5  
 (Other): 0   V7:3

したがって、合計 18 個の点がプロットされているはずです ( の場合は 7、のresponse1場合は 7、のresponse2場合は 4 ですresponse3。試してみましょう:

p <- ggplot(test_subset, aes(x = var1, y = value)) + geom_point()
p <- p + facet_grid(~variable) + coord_flip()
p <- p + geom_jitter(position = position_jitter(width=0.2, height = 0.2))
p

ここに画像の説明を入力

response1ファセットで 11 点、で 8点、response2で8点を数えますresponse3。

これは、私が見逃しているばかげたものでなければなりません。私はドットプロットで多くのファセットを行ってきましたが、これが発生したことはありません (または気付かなかった!)。

私が試したこと

削除するcoord_flip()
test_subset <- droplevels(test_subset)空の因子レベルが何かを台無しにしていた場合
facet_grid(~variable)vs. facet_grid(.~variable)vs. facet_grid(variable~)vs.で遊ぶfacet_grid(variable~.)

最後の注意点として、ファセットするかどうかによってポイントの数が異なります。ファセットを使用すると、が得られます。11 + 8 + 8 = 27を削除するとfacet_grid(~variable)、23 になります。

ご提案ありがとうございます。

score 2 · Accepted Answer

問題はファセットによるものではなく、プロットで 2 つの geom を使用していることが原因です。そのgeom_pointため、すべてのポイントが 1 か所にgeom_jitter描画され、ランダムな位置にもう一度描画されます。そのため、各プロットでもう 1 つのポイントを確認できます。

すべての呼び出しを削除すると、geom_point通常に戻ります。

p <- ggplot(test_subset, aes(x = var1, y = value))
p <- p + facet_grid(~variable) + coord_flip()
p <- p + geom_jitter(position = position_jitter(width=0.2, height = 0.2))
p

ここに画像の説明を入力

r - データフレームよりも多くのポイントをプロットするggplot2、geom_point + facet_grid

1 に答える 1

Related

Reference