私はダイヤモンドのこのようなデータセットを持っています:
diamonds2 = subset(diamonds, cut!='Good' & cut!='Very Good', -c(table, x, y, z, clarity, depth, price))
このような箱ひげ図を作りたい:
ggplot(diamonds2, aes(x=color, y=carat, col=cut))+geom_boxplot()
そして難しい質問がここに来ます。私の考えは、グループ (カット) ごとの変数 y (カラット) の各分布と各列 (色) に対してペアワイズ wilcox.test を実行することです。
library(plyr)
ddply(diamonds2,"color",
function(x) {
w <- wilcox.test(carat~cut,data=diamonds2)
with(w,data.frame(statistic,p.value))
})
2 つのレベルを要求しているため、コードは失敗します (明らかに)。関数を適用する前にサブセットを作成できますが (「カット」の 1 つを削除するため)、必要なものが得られず、理由がわかりません。
さらに、比較している 2 つの分布間の色のアスタリスクとして結果をプロットしたいと思います。最初の箱ひげ図 (D) では、3 つのアスタリスク、紫 (赤と青は大きく異なります)、黄色、シアンをプロットしたいと思います。
アスタリスクのカラー プロットについて、ggplot2 の関数 geom_text で少し遊んでいますが、X 軸の下にプロットする方法や、テキストを異なる色でプロットする方法がわかりません。