3

私は、外生空間ではなく、内生変数にかなりの数の外れ値を持つデータに適合させようとしている線形モデルを持っています。この状況では、M 推定量に基づく RLM が有効であることを調査しました。

次の方法で RLM をデータに適合させると、次のようになります。

import numpy as np
import statsmodels.formula.api as smf
import statsmodels as sm

modelspec = ('cost ~ np.log(units) + np.log(units):item + item') #where item is a categorical variable
results = smf.rlm(modelspec, data = dataset, M = sm.robust.norms.TukeyBiweight()).fit()
print results.summary()

要約結果は az 統計量を示しており、有意係数検定は統計量ではなく、これに基づいているようです。ただし、次の R マニュアル ( http://www.dst.unive.it/rsr/BelVenTutorial.pdf ) では、pg での t 統計の使用が示されています。19-21

2 つの質問:

  1. statsmodels が t 検定ではなく z 検定を使用する理由を概念的に説明してもらえますか?

  2. 結果では、すべての項と交互作用が非常に有意です (|z| > 4)。ほとんどの場合、各項目には 40 以上の観測値があります。観測数が 21 ~ 25 の項目がいくつかあります。小さなサンプル環境では RLM が効果的ではないと信じる理由はありますか? それが生成する線は、外れ値を再重み付けした後に最適な線である必要がありますが、このサイズのサンプルに対して有効な z 検定ですか (つまり、smf.rlm() によって生成された信頼区間が 95% を生成しないと信じる理由がありますか)。確率範囲? t 検定では、これが問題になる可能性があることはわかっています...)?

ありがとう!

4

1 に答える 1