python - Statsmodels 異分散の一貫した標準誤差に基づく平均信頼区間のプロット

Question

この質問は、StatsModels の信頼区間と予測区間に似ていますが、ニュアンスが追加されています。

私のデータは異分散であり、statsmodels が提供する異分散の一貫した標準誤差 (HC0_se、HC1_se など) のいずれかを使用して、平均の信頼区間をプロットしたいと考えています。適合値ごとにこの情報に簡単にアクセスすることはできません (ただし、各係数の間隔を取得するのは非常に簡単です)。また、標準の平均信頼区間データと同じように、stats.outliers の結果要約テーブルに含まれていないようです。

2 つの質問:

誰も私がこれを行う方法を知っていますか?
線形回帰結果オブジェクトでも利用できる異分散一貫性のある共分散行列は、通常何を使用しますか? なぜそれが利用可能になったのですか？

どうもありがとう

score 3 · Accepted Answer

予測標準誤差の計算に使用する共分散行列を指定する方法はまだないと思います。予測コードはまだ statsmodels リポジトリの "sandbox" フォルダーにあることに注意してください。Github プルリクエストは大歓迎です :)

いずれにせよ、これは非常に簡単なはずです。リンク先の予測関数の内部コードへのリンクを次に示します。covb基本的に、変数の代わりに使用する共分散行列を置き換えるだけで済みます。

次に、他の SO 投稿で見たのと同じ matplotlib tidbit を使用できます。

https://github.com/statsmodels/statsmodels/blob/master/statsmodels/sandbox/regression/predstd.py#L27

predvar = res.mse_resid/weights + (exog * np.dot(covb, exog.T).T).sum(1)
predstd = np.sqrt(predvar)
tppf = stats.t.isf(alpha/2., res.df_resid)
interval_u = predicted + tppf * predstd
interval_l = predicted - tppf * predstd
return predstd, interval_l, interval_u

score 2 · Accepted Answer

堅牢な標準誤差または共分散は、まだモデルに完全に統合されていません。それらは現在、主にモデルが推定された後にそれらを取得するためのアドオンです。

statsmodels の次のリリースでは、デフォルトの共分散を利用可能な堅牢な共分散推定量のいずれかに変更できるようになり、OLS の現在のマスターになっています。その後、追加のすべての結果 (t_test、wald_test など) は、デフォルトとして定義されているロバストまたは非ロバスト共分散を使用します。現在のバージョン: http://statsmodels.sourceforge.net/devel/generated/statsmodels.regression.linear_model.OLSResults.get_robustcov_results.html

予測標準誤差の場合:

が堅牢なサンドイッチ推定器である場合の計算は同じだと思いますが、cov_paramsStata に対して検証していません。statsmodels wls_prediction_std の数学的背景の私の回答の最後の部分を参照してください

そのため、statsmodels 0.5 では、ロバストな共分散を使用して予測エラーを直接取得することはできません。目的の cov_params を使用するには、関数をコピーする必要があります。

ロバストな共分散を使用する理由

観測値の不均一分散または相関がある場合、OLS は一貫したまたは偏りのないパラメーター推定値を持ちますが、パラメーター推定値の標準共分散行列は「間違っています」。したがって、不均一分散、相関、またはその両方に対してロバストな共分散行列を取得する必要があります。

多くの最新の計量経済学の教科書では、観測間の不均一分散性または相関関係の正確な仕様について確信が持てない場合、常に堅牢な共分散推定量を使用することを推奨しています。これは、経済学ではほぼ常に当てはまります。

最も単純なケースは単なる異分散http://en.wikipedia.org/wiki/Heteroscedasticity-consistent_standard_errorsですが、時系列では、モデルに含めなかった自己相関がある可能性があり、反復測定またはパネルデータでは、しばしばクラスター内またはパネル。これらの場合、堅牢な共分散により、一貫した標準誤差が得られます。

同じことが他のモデルにも当てはまります。たとえば、ポアソンのクラスタロバスト標準誤差や、一般化推定方程式 (GEE) のロジットモデルなどです。

python - Statsmodels 異分散の一貫した標準誤差に基づく平均信頼区間のプロット

2 に答える 2

Related

Reference