r - Rのデータへの多項式モデルの当てはめ

Question

この質問に対する回答を読みましたが、非常に役に立ちますが、助けが必要です。

次のように、Rにサンプルデータセットがあります。

x <- c(32,64,96,118,126,144,152.5,158)  
y <- c(99.5,104.8,108.5,100,86,64,35.3,15)

モデルをこれらのデータに当てはめたいので、y = f(x). 3次多項式モデルにしたい。

Rでそれを行うにはどうすればよいですか？

さらに、R は最適なモデルを見つけるのに役立ちますか?

score 108 · Accepted Answer

x（x ^ 3）の3次多項式を取得するには、次のようにします。

lm(y ~ x + I(x^2) + I(x^3))

また

lm(y ~ poly(x, 3, raw=TRUE))

10次の多項式を近似して、ほぼ完全に近似することもできますが、そうする必要がありますか？

編集：poly（x、3）はおそらくより良い選択です（以下の@hadleyを参照）。

score 48 · Accepted Answer

どのモデルが「最適なモデル」であるかは、「最良」が何を意味するかによって異なります。R には役立つツールがありますが、それらの中から選択するための「最良」の定義を提供する必要があります。次のデータとコードの例を考えてみましょう。

x <- 1:10
y <- x + c(-0.5,0.5)

plot(x,y, xlim=c(0,11), ylim=c(-1,12))

fit1 <- lm( y~offset(x) -1 )
fit2 <- lm( y~x )
fit3 <- lm( y~poly(x,3) )
fit4 <- lm( y~poly(x,9) )
library(splines)
fit5 <- lm( y~ns(x, 3) )
fit6 <- lm( y~ns(x, 9) )

fit7 <- lm( y ~ x + cos(x*pi) )

xx <- seq(0,11, length.out=250)
lines(xx, predict(fit1, data.frame(x=xx)), col='blue')
lines(xx, predict(fit2, data.frame(x=xx)), col='green')
lines(xx, predict(fit3, data.frame(x=xx)), col='red')
lines(xx, predict(fit4, data.frame(x=xx)), col='purple')
lines(xx, predict(fit5, data.frame(x=xx)), col='orange')
lines(xx, predict(fit6, data.frame(x=xx)), col='grey')
lines(xx, predict(fit7, data.frame(x=xx)), col='black')

それらのモデルのどれが最高ですか? それらのいずれかに対して引数を作成できます（ただし、補間に紫色のものを使用したくない場合があります）。

score 16 · Accepted Answer

「Rは最適なモデルを見つけるのに役立ちますか」という質問に関しては、テストするモデルのセットを指定できると仮定すると、おそらくこれを行う関数がありますが、これはn-1のセットの最初のアプローチとして適しています。次数多項式：

polyfit <- function(i) x <- AIC(lm(y~poly(x,i)))
as.integer(optimize(polyfit,interval = c(1,length(x)-1))$minimum)

ノート

このアプローチの有効性は、目的、前提条件、optimize()およびAIC()AICが使用する基準である場合は、
polyfit()最小値が1つではない場合があります。次のようなものでこれを確認してください：
```
for (i in 2:length(x)-1) print(polyfit(i))
```
as.integer()非整数多項式をどのように解釈するかが明確でないため、この関数を使用しました。
数学方程式の任意のセットをテストするために、AndrewGelmanによってレビューされた「Eureqa」プログラムをここで検討してください。

アップデート

stepAICモデル選択を自動化する関数（MASSパッケージ内）も参照してください。

score 4 · Accepted Answer

R で最適なモデルを見つける最も簡単な方法は、モデルを次のようにコーディングすることです。

lm.1 <- lm(y ~ x + I(x^2) + I(x^3) + I(x^4) + ...)

ステップダウンAIC回帰を使用した後

lm.s <- step(lm.1)

r - Rのデータへの多項式モデルの当てはめ

5 に答える 5

Related

Reference