年ごとの人口を見る時系列の単純化された例が与えられた場合
Year<-c(2001,2002,2003,2004,2005,2006)
Pop<-c(1,4,7,9,20,21)
DF<-data.frame(Year,Pop)
年間の変化/どの年が互いに有意に異なるかという点で有意性をテストするための最良の方法は何ですか?
年ごとの人口を見る時系列の単純化された例が与えられた場合
Year<-c(2001,2002,2003,2004,2005,2006)
Pop<-c(1,4,7,9,20,21)
DF<-data.frame(Year,Pop)
年間の変化/どの年が互いに有意に異なるかという点で有意性をテストするための最良の方法は何ですか?
@joranが述べたように、これは実際にはプログラミングの問題ではなく統計の問題です。http://stats.stackexchange.comで質問して、統計に関する専門知識を深めることができます。
ただし、簡単に言うと、次の 2 つのアプローチがすぐに思い浮かびます。
lm()
、このように R で使用されlmPop <- lm(Pop ~ Year,data=DF)
ます。t.test(Pop[1:3],Pop[4:6])
。これらのアプローチは両方とも、いくつかの潜在的な問題に悩まされており、それぞれの有効性は、調査しているデータの性質によって異なります。ただし、サンプル データの場合、最初のアプローチは 95% の信頼水準 (勾配係数の p=0.00214) で経時的な傾向があるように見えることを示唆していますが、2 番目のアプローチは、差がないという帰無仮説を示唆しています。 95% の信頼水準 (p = 0.06332) で偽造できないことを意味します。
それらはすべて互いに大きく異なります。1 は 4 と有意に異なり、4 は 7 と有意に異なります。
待って、それはあなたが意図したものではありませんか?さて、それはあなたが私たちに与えたすべての情報です. 統計学者として、これ以上の仕事はありません。
だから今、あなたは私たちに何か他のことを教えてください. 「Pop 値の変動が平均 0 で分散が同じ正規分布値である独立した直線と有意に異なる値はありますか?」か何か。
簡単に言えば、数字の集まりだけでは統計分析の対象にはなりません。統計学者と協力して、データのモデルに同意する必要があります。そうすれば、統計的手法によって有意性と不確実性に関する質問に答えることができます。
これは、統計学者でない人にはわからないことが多いと思います。彼らは「これが私の数字です。これは重要ですか?」- これは通常、それらを SPSS に入力して p 値を取得することを意味します。
[この Q が属している stats.stackexchange.com に転送するようにフラグを立てました]