2

有界応答変数を持つデータセットの 2 つの異なるフィッティング方法の違いを理解しようとしています。応答変数は分数であるため、範囲は [0,1] です。これは一般的な操作であるため、Google の検索でさまざまな方法があることがわかりました。私は現在、ストック R GLM フィットと betareg パッケージで提供されるベータ回帰の違いに興味があります。「betareg」パッケージの GasolineYield データ セットをサンプル データ セットとして使用しています。コードと結果を投稿する前に、私の 2 つの質問は次のとおりです。

  1. 組み込みの R GLM を正しく使用して、R でロジスティック回帰適合を実行していますか?

  2. ベータ回帰で報告された標準誤差が、R ロジスティック回帰の標準誤差よりもはるかに小さいのはなぜですか?

R セットアップ コード

library(betareg)
data("GasolineYield", package = "betareg")

「betareg」パッケージのベータ回帰コード

gy = betareg(yield ~ batch + temp, data = GasolineYield)
summary(gy)

ベータ回帰の要約出力

Call:
betareg(formula = yield ~ batch + temp, data = GasolineYield)

Standardized weighted residuals 2:
    Min      1Q  Median      3Q     Max 
-2.8750 -0.8149  0.1601  0.8384  2.0483 

Coefficients (mean model with logit link):
              Estimate Std. Error z value Pr(>|z|)    
(Intercept) -6.1595710  0.1823247 -33.784  < 2e-16 ***
batch1       1.7277289  0.1012294  17.067  < 2e-16 ***
batch2       1.3225969  0.1179020  11.218  < 2e-16 ***
batch3       1.5723099  0.1161045  13.542  < 2e-16 ***
batch4       1.0597141  0.1023598  10.353  < 2e-16 ***
batch5       1.1337518  0.1035232  10.952  < 2e-16 ***
batch6       1.0401618  0.1060365   9.809  < 2e-16 ***
batch7       0.5436922  0.1091275   4.982 6.29e-07 ***
batch8       0.4959007  0.1089257   4.553 5.30e-06 ***
batch9       0.3857930  0.1185933   3.253  0.00114 ** 
temp         0.0109669  0.0004126  26.577  < 2e-16 ***

Phi coefficients (precision model with identity link):
      Estimate Std. Error z value Pr(>|z|)    
(phi)    440.3      110.0   4.002 6.29e-05 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 

Type of estimator: ML (maximum likelihood)
Log-likelihood:  84.8 on 12 Df
Pseudo R-squared: 0.9617
Number of iterations: 51 (BFGS) + 3 (Fisher scoring) 

R ストック R からの GLM ロジスティック回帰コード

glmfit = glm(yield ~ batch + temp, data = GasolineYield, family = "binomial")
summary(glmfit)

R GLM ロジスティック回帰の要約出力

Call:
glm(formula = yield ~ batch + temp, family = "binomial", data = GasolineYield)

Deviance Residuals: 
      Min         1Q     Median         3Q        Max  
-0.100459  -0.025272   0.004217   0.032879   0.082113  

Coefficients:
             Estimate Std. Error z value Pr(>|z|)
(Intercept) -6.130227   3.831798  -1.600    0.110
batch1       1.720311   2.127205   0.809    0.419
batch2       1.305746   2.481266   0.526    0.599
batch3       1.562343   2.440712   0.640    0.522
batch4       1.048928   2.152385   0.487    0.626
batch5       1.125075   2.176242   0.517    0.605
batch6       1.029601   2.229773   0.462    0.644
batch7       0.540401   2.294474   0.236    0.814
batch8       0.497355   2.288564   0.217    0.828
batch9       0.378315   2.494881   0.152    0.879
temp         0.010906   0.008676   1.257    0.209

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 2.34184  on 31  degrees of freedom
Residual deviance: 0.07046  on 21  degrees of freedom
AIC: 36.631

Number of Fisher Scoring iterations: 5
4

1 に答える 1

2

2 つのモデルの分散の仮定が異なるため、標準誤差は異なります。

ロジスティック回帰では応答が二項分布であると想定され、ベータ回帰ではベータ分布であると想定されます。

両者の分散関数は異なります。二項の場合、平均を指定すると (そして $n$ が与えられます)、分散が決定されます。ベータ版には別の無料パラメーターがあるため、平均値では決定されず、おそらくデータから推定されます。

これは、準二項 GLM を当てはめる (分散パラメーターを追加する) と、同じ標準誤差に近づく可能性があることを示唆していますが、観測値の重み付けが異なるため、それでも同じにはなりません。

実際にすべきこと:

  • 比率が元々カウントを合計カウントで割ったものである場合は、二項 GLM を検討するのが適切なモデルになります。(ただし、合計数が必要になります。)

  • 比率が連続分数 (たとえば、クリームの牛乳の比率) である場合、ベータ回帰は考慮すべき適切なモデルです。

于 2014-04-22T02:12:40.910 に答える