-1

サンプルの藻類データを使用して、データ マイニングをもう少し理解します。次のコマンドを使用しました。

> data(algae)
> algae <- algae[-manyNAs(algae),]
> clean.algae <-knnImputation(algae, k = 10)
> lm.a1 <- lm(a1 ~ ., data = clean.algae[, 1:12])
> summary(lm.a1)

その後、以下の結果を受け取りましたが、これが何を意味するのかを説明する適切なドキュメント、特に Std を見つけることができません。エラー、t 値および Pr. 誰か光を当ててください。最も重要なことは、モデルが適切な予測データを提供しているかどうかを確認するために、どの変数を確認する必要があるかということです。

Call:
lm(formula = a1 ~ ., data = clean.algae[, 1:12])

Residuals:
    Min      1Q  Median      3Q     Max 
-37.679 -11.893  -2.567   7.410  62.190 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)   
(Intercept)  42.942055  24.010879   1.788  0.07537 . 
seasonspring  3.726978   4.137741   0.901  0.36892   
seasonsummer  0.747597   4.020711   0.186  0.85270   
seasonwinter  3.692955   3.865391   0.955  0.34065   
sizemedium    3.263728   3.802051   0.858  0.39179   
sizesmall     9.682140   4.179971   2.316  0.02166 * 
speedlow      3.922084   4.706315   0.833  0.40573   
speedmedium   0.246764   3.241874   0.076  0.93941   
mxPH         -3.589118   2.703528  -1.328  0.18598   
mnO2          1.052636   0.705018   1.493  0.13715   
Cl           -0.040172   0.033661  -1.193  0.23426   
NO3          -1.511235   0.551339  -2.741  0.00674 **
NH4           0.001634   0.001003   1.628  0.10516   
oPO4         -0.005435   0.039884  -0.136  0.89177   
PO4          -0.052241   0.030755  -1.699  0.09109 . 
Chla         -0.088022   0.079998  -1.100  0.27265   
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 17.65 on 182 degrees of freedom
Multiple R-squared:  0.3731,    Adjusted R-squared:  0.3215 
F-statistic: 7.223 on 15 and 182 DF,  p-value: 2.444e-12
4

1 に答える 1

1

うまく答えられるかわかりませんが、やってみたいと思います。

式 (この特定の ~.) を使用すると、次のようなモデルで他のすべての変数を使用して a1 を予測しようとしています。

a1 = b0 + b1*seasonspring + b2*seasonsummer ... + e

ここで、b0 は切片、e はエラーです。列の推定値は "b" 回帰係数であり、t 検定と p 値は、この係数が統計的に有意であるかどうかを判断しようとしています。たとえば、テーブルの行の 1 つを次のように読み取ることができます。

NO3には を予測するのに役立つ線形関係がa1あり、NO3 の b_x 係数は有意であり、0.001ゼロに等しい確率よりも小さい (大まかに言えば)。

適合度を測定するために使用される統計の 1 つは、R^2 です。

R-squared:  0.3731

Tha は、「私のモデルが説明するデータ分散の量 (これも大まかに)」を言おうとしています。より良い対策があります。これには少し読む必要があります...

ここで詳細な説明を見つけることができます http://www.manning.com/kabacoff/

于 2013-05-17T00:37:51.580 に答える