曲線をデータに当てはめ、その曲線がどの程度適合しているかをテストするために、R でどの関数を使用しますか? どのような結果が良いと考えられますか?
6 に答える
その質問の最初の部分だけで、本全体を埋めることができます。いくつかの簡単な選択:
lm()
標準線形モデルの場合glm()
一般化された線形モデル (例: ロジスティック回帰)rlm()
堅牢な線形モデルのためのパッケージ MASS からlmrob()
ロバスト線形モデルのパッケージrobustbaseからloess()
非線形/ノンパラメトリック モデル用
次に、時系列、ミクロ計量経済学、混合効果などのドメイン固有のモデルがあります。Econometricsなどのいくつかのタスク ビューでは、 これについて詳しく説明しています。適合性の良さについては、本全体を議論するのに簡単に費やすことができるものでもあります.
R での正準曲線フィッティングの主力製品はlm()
、glm()
およびnls()
です。私にとって、適合度は、モデル選択のより大きな問題の下位問題です。実際、適合度を誤って使用すると (たとえば、段階的回帰を介して)、深刻なモデルの誤りが生じる可能性があります (「回帰モデリング戦略」に関する Harrell の本を参照してください)。この問題を最初から議論するよりも、ハレルの本をお勧めlm
しglm
ます。Venables and Ripley のバイブルは簡潔ですが、それでも読む価値があります。Faraway による「Extending the Linear Model with R」は、包括的で読みやすいものです。nls はこれらのソースではカバーされていませんが、Ritz & Steibig による「Nonlinear Regression with R」はギャップを埋めており、非常に実践的です。
nls()
関数 ( http://sekhon.berkeley.edu/stats/html/nls.html ) は、非線形最小二乗曲線フィッティングのかなり標準的なものです。カイ 2 乗 (残差の 2 乗の合計) は、その場合に最適化されるメトリックですが、正規化されていないため、適合度を判断するためにすぐに使用することはできません。確実にすべき主なことは、残差が正規分布していることです。残念ながら、それを自動化する方法はわかりません。
確実にすべき主なことは、残差が正規分布していることです。残念ながら、それを自動化する方法はわかりません。
qqnorm()
サンプルの分位数と理論上の分位数の間の相関関係を見つけるために、おそらく修正することができます。基本的に、これは通常の分位点プロットの数値解釈にすぎません。おそらく、異なる範囲の分位数に対して相関係数のいくつかの値を提供することが役立つ場合があります。たとえば、データの中央の 97% で相関係数が 1 に近く、裾でははるかに低い場合、これは残差の分布がほぼ正常であり、裾で面白いことが起こっていることを示しています。
シンプルに保ち、線形メソッドが「十分に」機能するかどうかを確認するのが最善です。一般的に、R の 2 乗と F の統計を一緒に見ることで、自分の適合度を判断できます。従属変数に関係のない変数をモデルに追加すると、R2 が増加する可能性があるため、F 統計量も考慮する必要があります。
また、モデルを他のネストされたモデル、またはより単純なモデルと比較する必要があります。従属変数が同じである限り、対数尤度比検定を使用してこれを行います。
Jarque–Bera 検定は、残差分布の正規性を検定するのに適しています。