私は人々が 1 週間に通勤する回数に関するデータを持っています。旅行の距離とともに、2 つの変数の関係に興味があります。(周波数は、距離が増加するにつれて低下すると予想され、本質的に負の関係です。) Cor.test は、この仮説を支持します: -0.08993444、p 値は 2.2e-16 です。
これをプロットすると、より頻繁に移動するほど距離が明らかに短くなる傾向があります。膨大な数のポイントを理解するために、geom_smooth を使用しました。しかし、私はその結果を完全には理解していません。ヘルプページによると、それは「条件付き平均」です。しかし、真意に近づくことはないようで、
> mean(aggs3$Distance)
[1] 9.766497
以下のプロットでは、8 を超えることはないようです。ここで何が起こっているのでしょうか? ローリング平均が本当に必要だと思いますが、zoo パッケージのrollmeanを実装するのは面倒であることがわかりました (最初にデータをソートする必要があります)。先に進む前に最適なソリューションを求めたいと思います。どうもありがとう。
p <- ggplot(data=aggs3, aes(x=N.trips.week, y=Distance))
p + geom_point(alpha = 0.1) + geom_smooth() +
ylim(0,30) + xlim(0,25) + ylab("Distance (miles)") +
stat_density2d(aes(fill = ..level..), geom="polygon", alpha=0.5,na.rm=T, se=0.1)
(二次的な無関係な質問: 2D 密度レイヤーの輪郭を滑らかにするにはどうすればよいですか?)
(追伸これを視覚化するためのより良い方法があることは知っています-たとえば以下ですが、学習のためにgeom_smoothの使用方法をよりよく理解する必要があります。)